デイリーHuggingFaceトレンド
Hugging Face( huggingface.co/models )から5つをピックアップし、毎日19時過ぎにリポジトリの内容を要約して投稿します。
ソースコードの配布は「 github.com/aegisfleet/hugging-… 」で行っています。
GitHubトレンド: @dailygithubtrends.bsky.social
Zennトレンド: @dailyzenntrends.bsky.social
- 今日のHuggingFaceトレンド PaddlePaddle/PaddleOCR-VL-1.5 PaddleOCR-VL-1.5は、堅牢なワイルドなドキュメント解析を目指した0.9BのマルチタスクVLM(Vision-Language Model)です。 ベースモデルはbaidu/ERNIE-4.5-0.3B-Paddleを使用し、PaddleOCRライブラリを基盤としています。
- 今日のHuggingFaceトレンド circlestone-labs/Anima このリポジトリは、アニメ様式の画像生成に特化した20億パラメータのテキストto画像モデル「Anima」に関するものです。 ComfyUIでの利用を想定し、Danbooru形式のタグや自然言語によるプロンプトに対応しています。 学習データは主にアニメ画像で、イラストや芸術的な画像の生成を目的としています。
- 今日のHuggingFaceトレンド zai-org/GLM-OCR GLM-OCRは、複雑なドキュメント理解のためのマルチモーダルOCRモデルです。 GLM-Vアーキテクチャを基盤とし、Multi-Token Prediction損失や強化学習を用いて効率と精度を高めています。 多様なドキュメントレイアウトに対して、高いOCR性能を発揮します。 vLLMやSGLangでの利用方法も提供されています。
- 今日のHuggingFaceトレンド tencent/HunyuanImage-3.0-Instruct HunyuanImage-3.0は、テキストと画像を統合した高性能な画像生成モデルです。 テキストから画像、または画像から画像を生成でき、既存のクローズドソースモデルと同等またはそれ以上の性能を発揮します。 PyTorchと関連ライブラリのインストールが必要です。 高速化のための最適化も利用可能です。
- 今日のHuggingFaceトレンド moonshotai/Kimi-K2.5 このリポジトリは、Kimi K2.5という大規模な視覚言語モデルに関する情報を提供するものです。 1兆パラメータのMoEアーキテクチャを持ち、画像とテキストを統合した高度なエージェント機能を備えています。 ベンチマーク結果も含まれており、GPT-5.2やClaude 4.5といった他のモデルとの比較が可能です。
- 今日のHuggingFaceトレンド stepfun-ai/Step-3.5-Flash このリポジトリは、Step 3.5 Flashという高性能なオープンソース基盤モデルに関するものです。 1960億パラメータを持ちながら、MoEアーキテクチャにより効率的に推論・応答を実現します。 高度な推論能力、コーディング能力、エージェント能力を備え、商用モデルと同等の性能を目指しています。
- 今日のHuggingFaceトレンド Qwen/Qwen3-ASR-1.7B このリポジトリは、Qwen3-ASRモデル群を公開するものです。 Qwen3-ASR-1.7Bと0.6Bは、52の言語・方言に対応した音声認識と言語識別を行います。 大規模な音声データで学習されており、オープンソースモデル中では最高水準の性能を示します。 オフライン/ストリーミング推論、多様な音声タイプに対応可能です。
- 今日のHuggingFaceトレンド nvidia/personaplex-7b-v1 このリポジトリは、NVIDIAが開発したリアルタイム音声対話モデルPersonaPlexに関するものです。 PersonaPlexは、音声とテキストのプロンプトにより、特定の声と役割を持つ対話エージェントを実現します。 連続音声入力に対し、同時ストリーミングで理解と生成を行い、自然な会話(割り込みなど)を可能にするのが特徴です。
- 今日のHuggingFaceトレンド deepseek-ai/DeepSeek-OCR-2 DeepSeek-OCR 2モデルの利用を目的としたリポジトリ。 画像からテキストを抽出、またはドキュメントをMarkdown形式に変換する推論処理をHuggingface transformersを用いて行う。 vLLMによる高速化やPDF処理のガイドも提供。
- 今日のHuggingFaceトレンド Tongyi-MAI/Z-Image Z-Imageは高品質な画像生成を目的とした基盤モデルです。 多様なスタイルに対応し、プロンプトへの正確な追従性を持ちます。 クリエイター、研究者、開発者向けに、高い創造性を実現するバックボーンとなることを目指しています。 diffusersライブラリを使用。