ワンストップAI製品ナビゲーションで、AIGCの扉を開きます〜

2025年AIイベント年表

2025年の人工知能における主要な出来事、技術革新、製品発表、業界の発展を網羅的に記録

March

すべて (11)
​OpenAI (1)
阶跃星辰 (1)
​Mistral AI (1)
百度 (1)
Google (1)
Google DeepMind (1)
OpenAI (1)
Mistral AI (1)
Alibaba (1)
Manus (1)
THUDM (1)

🔥 gpt-4o-transcribe

gpt-4o-transcribe​OpenAI

OpenAIが新たに独自開発した音声モデルです。2年前にOpenAIが公開したオープンソースの音声転写モデルWhisperのアップグレード版と見なすことができ、文字化け率の低減と性能向上を目指しています。業界標準の33言語におけるテストでは、gpt-4o-transcribeのエラー率はWhisperと比べて大幅に低下し、特に英語においてはエラー率が2.46%という低さを達成しました!OpenAIは、個人ユーザーが手軽に試せるデモサイトOpenAI.fmを提供しています。

音声
Mar 21

🔥 Step-Video-TI2V

Step-Video-TI2V阶跃星辰

Step-Video-TI2Vは、上海階躍星辰智能科技有限公司が開発した、高度な画像から動画を生成するモデルです。300億パラメーターのStep-Video-T2Vを基に訓練されており、テキストと画像を入力として最大102フレームの動画を生成できます。このモデルの最大の利点は、モーションの幅とカメラワークを制御できる点であり、動画生成結果のダイナミックさと安定性のバランスを取ることができます。さらに、アニメ風の動画生成において優れた性能を発揮し、アニメーション制作、短編動画制作などの用途に最適です。

言語
Mar 20

🔥 Mistral Small 3. 1

Mistral Small 3. 1​Mistral AI

フランスの人工知能スタートアップ企業Mistral AIは、最新のオープンソースモデルMistral Small 3.1を発表しました。Mistral-Small-3.1-24B-Base-2503は、240億パラメーターを備えた高度なオープンソースモデルであり、多言語とロングコンテキスト処理をサポートし、テキストとビジョンのタスクに適しています。これはMistral Small 3.1の基本モデルであり、強力なマルチモーダル能力を備えており、企業のニーズに適しています。

マルチモーダル
Mar 18

🔥 文心4.5与X1

文心4.5与X1百度

百度が文心4.5とX1大規模言語モデルを発表、価格は大幅に低下

言語
Mar 16

🔥 Gemma 3

Gemma 3Google

Gemma 3は、Gemini 2.0テクノロジーに基づいて開発された、軽量で最先端のオープンソースモデルシリーズであり、デバイス上での実行向けに設計されています。同サイズのモデルの中で卓越した性能を発揮し、140以上の言語をサポートし、高度なテキストとビジュアルの推論能力を備えています。Gemma 3は128kトークンのコンテキストウィンドウを提供し、複雑なタスクを処理するための関数呼び出しをサポートしており、性能向上と計算需要の低減を目的とした量子化バージョンも用意されています。開発プロセスにおいてはセキュリティに重点を置き、厳格なデータガバナンスとセキュリティポリシーに準拠することで、責任ある開発と利用を確保しています。Gemma 3の登場は、AI技術の普及と応用をさらに推進し、開発者にとって様々なAIアプリケーションを作成するための強力なツールとなります。

マルチモーダル
Mar 12

🔥 Gemini Robotics

Gemini RoboticsGoogle DeepMind

Gemini Roboticsは、Gemini 2.0を基盤として開発された、ロボット工学向けに設計された高度な視覚・言語・動作(VLA)モデルです。マルチモーダル推論を通じてAIを物理世界に導入し、ロボットがより広範な現実世界のタスクを実行できるようにします。このモデルは汎用性が高く、様々な状況に適応し、多様なタスクを解決できます。また、対話型で、日常言語の指示を理解し迅速に反応します。さらに、折り紙やスナックの梱包など、精密な操作が可能な器用さも備えています。

マルチモーダル
Mar 12

🔥 OpenAI Agents SDK

OpenAI Agents SDKOpenAI

OpenAI Agents SDKは、エージェント型AIアプリケーションを構築するための軽量で使いやすいツールキットです。これは、OpenAIの以前のエージェント実験プロジェクトであるSwarmの、本番環境対応版のアップグレードです。このSDKは、エージェント(命令とツールを備えたLLM)、エージェント間のタスク委任のハンドオフ機能、およびエージェント入力の検証のためのガードレールなど、少数の基本的な構成要素を提供します。Pythonと組み合わせることで、これらの構成要素はツールとエージェント間の複雑な関係を表現することができ、急な学習曲線なしで実用的なアプリケーションを構築できます。さらに、SDKには追跡機能が組み込まれており、ユーザーはエージェントのプロセスを視覚化およびデバッグし、プロセスを評価したり、アプリケーションにモデルを微調整したりすることができます。主な利点は、実用的な機能と少ない構成要素で、迅速な学習が容易であることです。すぐに使用でき、具体的な動作をカスタマイズすることもできます。これは、OpenAIによるエージェント技術分野における重要な実践であり、開発者にエージェント型AIアプリケーションを構築するための効率的で柔軟なツールを提供します。

言語
Mar 11

Mistral OCR

Mistral OCRMistral AI

Mistral OCRは、光学文字認識(OCR)APIであり、ドキュメント理解に特化しています。テキスト、画像、表、数式など、ドキュメント内のあらゆる要素を、比類のない精度と認識能力で理解することができます。画像とPDFを入力として、整理されたテキストと画像の内容を抽出するこの技術は、マルチモーダルドキュメント処理に対応しており、複雑なドキュメント理解において業界をリードしています。その重要性は、デジタル化された情報の集合知を解き放ち、大量のドキュメントとして保存されている組織データを活用可能な知識に変換し、イノベーションを推進することにあります。

マルチモーダル
Mar 6

🔥 QwQ-32B

QwQ-32BAlibaba

QwQ-32Bは、320億パラメーターを持つ推論モデルです。大規模強化学習(RL)によってモデル性能が向上しており、深い思考と複雑な推論を行うことができます。エージェント関連の機能を統合しており、ツールを使用しながら批判的思考を行い、環境からのフィードバックに基づいて推論プロセスを調整できます。数学的推論、プログラミング能力、汎用能力において優れた性能を示し、6710億パラメーターを持つDeepSeek-R1に匹敵する性能を達成しています。これは、強化学習が大規模言語モデルの知能向上における潜在能力を示しており、汎用人工知能への可能性のある道を示唆しています。

言語
Mar 6

🔥 Manus

ManusManus

Manusは、思考と行動を繋ぐ汎用的なAIエージェントです。単に考えるだけでなく、結果を提供します。Manusは、仕事や生活における様々なタスクを処理することに長けており、あなたが休息している間にあらゆることを完了できます。情報を統合し、カスタマイズされたソリューションを生成することで、効率的で便利なサービスを提供します。Manusの重要性は、自動化とインテリジェントな方法を通じて、ユーザーの時間と労力を節約し、同時に高品質な分析と意思決定支援を提供できる点にあります。

マルチモーダル
Mar 5

CogView4

CogView4THUDM

CogView4は、拡散モデルに基づくテキストから画像を生成するシステムであり、中国語の入力と中国語テキストから画像への生成に対応しています。カスケード拡散フレームワークとDiffusion Transformer技術を採用しており、高品質な画像を生成できます。このモデルは複数のベンチマークテストで優れた性能を示しており、特に中国語テキスト生成において独自の強みを持っています。

画像
Mar 4

February

すべて (11)
OpenAI (2)
Anthropic (2)
Alibaba (2)
Google (2)
Mistral AI (1)
xAI (1)
ByteDance (1)

🔥 GPT-4.5

GPT-4.5OpenAI

GPT-4.5は、OpenAIが開発した最新の言語モデルであり、教師なし学習とモデル規模において大きな進歩を表しています。計算とデータ、そしてアーキテクチャと最適化の革新によって拡張されたこのモデルは、世界への理解と知識の幅を著しく向上させ、幻覚現象を削減し、自然言語インタラクションの自然さとユーザーの意図の理解能力を高めています。文章作成、プログラミング、現実問題の解決などにおいて優れた性能を発揮し、同時により高い感情知能(EQ)と創造性を備えています。GPT-4.5の重要性は、教師なし学習の最先端モデルとしての役割にあり、将来、より強力なモデルの基礎を築いています。

言語
Feb 27

🔥 Claude 3.7 Sonnet

Claude 3.7 SonnetAnthropic

Claude 3.7 Sonnetは、Anthropicがリリースした最新の混合推論モデルであり、迅速な応答と深い思考能力を備えています。ユーザーはAPIを通じてモデルの思考時間をきめ細かく制御できます。Claude 3.7 Sonnetは、コーディングとフロントエンド開発において優れた性能を発揮し、拡張思考モードにより、数学、物理学、指示遵守、プログラミングなどのタスクのパフォーマンスが大幅に向上しています。Claude 3.7 Sonnetは、標準思考モードと拡張思考モードの両方で優れた性能を示し、ユーザーは必要に応じて応答速度と品質のバランスを選択できます。Anthropicは、統一された推論モデルを通じてよりシームレスなユーザー体験を提供することを目指しており、Claude 3.7 Sonnetはその理念を体現し、コンテストの問題に特化したものとは異なり、実際のビジネスシーンで一般的に使用されるLLM機能を最適化しています。

マルチモーダル
Feb 25

🔥 Claude Code

Claude CodeAnthropic

Claude Codeは、ターミナルに統合されたインテリジェントなプログラミングツールであり、コードベースを理解し、自然言語コマンドを通じて開発者がより迅速にコードを作成するのを支援します。開発環境に直接統合され、追加のサーバーや複雑な設定は必要ありません。ファイルの編集、コード内のエラー修正、コードアーキテクチャとロジックに関する質問への回答、テストの実行、コードレビューなどに対応しています。Claude Codeの重要性は、開発効率を大幅に向上させると同時に、自然言語インタラクションを通じてプログラミングの敷居を下げることです。AnthropicのClaude-3-7-sonnet-20250219モデルをベースとしており、強力なコード理解と生成能力を備えています。

言語
Feb 25

🔥 QwQ-Max-Preview

QwQ-Max-PreviewAlibaba

QwQ-Max-Previewは、Qwen2.5-Maxをベースとしたプレビュー版であり、通義千問シリーズに属します。深層推論、数学、プログラミング、そしてAgent関連のタスクにおいて優れた性能を発揮します。本製品は近いうちにApache 2.0ライセンスの下でオープンソースとして公開する予定であり、インテリジェント推論技術の発展を促進し、オープンソースを通じてコミュニティ主導のイノベーションを促進することを目指しています。将来的には、QwQ Chat APPや、より小さな推論モデル(QwQ-32Bなど)も提供し、様々なユーザーのニーズに対応していきます。

言語
Feb 25

🔥 Wan AI

Wan AIAlibaba

Wan AIは、アリババグループの通義实验室が開発した、高度で強力なビジュアル生成モデルです。テキスト、画像、その他の制御信号に基づいて動画を生成できます。Wan 2.1シリーズモデルは現在完全にオープンソース化されています。この製品は、AIによるビジュアルコンテンツ生成分野における最先端技術を表しており、重要な革新性と応用価値を備えています。主な利点としては、強力なビジュアル生成能力、多様な入力信号への対応、そしてオープンソースであることが挙げられ、開発者やクリエイターは、このプラットフォームを柔軟に活用して創造的な開発やコンテンツ制作を行うことができます。

動画
Feb 25

🔥 PaliGemma 2 mix

PaliGemma 2 mixGoogle

PaliGemma 2 mixは、Googleが開発したマルチタスクビジョン言語モデルであり、Gemmaファミリーのアップグレード版です。このモデルは、画像セグメンテーション、動画字幕生成、科学的問題への回答、テキスト関連タスクなど、様々なビジョン言語タスクを処理できます。3B、10B、28Bパラメータの様々なサイズの事前学習済みチェックポイントを提供しており、224pxと448pxの複数の解像度にも対応しているため、開発者はニーズに合わせて適切なモデルを選択できます。さらに、PaliGemma 2 mixは、Hugging Face Transformers、Keras、PyTorch、JAX、Gemma.cppなど、複数のフレームワークをサポートしています。このモデルの多機能性と使いやすさは、ビジョン言語タスクにおいて強力なツールとなっています。

マルチモーダル
Feb 19

🔥 Mistral Saba

Mistral SabaMistral AI

Mistral Sabaは、Mistral AIが中東および南アジア地域の言語に特化して初めてリリースした地域言語モデルです。240億個のパラメータを持ち、厳選された中東および南アジアのデータセットでトレーニングされており、5倍の規模のモデルよりも正確で関連性の高い応答を、より高速かつ低コストで提供できます。アラビア語および複数のインド起源の言語に対応しており、特に南インド起源の言語(タミル語など)に優れています。API経由での利用に加え、顧客の安全な環境でローカルに展開することもでき、単一GPUシステムに対応し、毎秒150トークンを超える応答速度を実現します。

言語
Feb 17

🔥 Grok 3

Grok 3xAI

Grok 3は、xAIが開発した最新の主力AIモデルであり、画像の分析と質問への回答を目的としており、xAIのソーシャルネットワークXの多くの機能をサポートしています。これはモデルファミリーであり、Grok 3 mini、Grok 3 Reasoning、Grok 3 mini Reasoningなどのバージョンが含まれます。Grok 3は、AIME(数学の問題)やGPQA(博士レベルの物理、生物、化学の問題)など、複数のベンチマークテストでGPT-4oを上回る優れた性能を示しました。その推論モデルは、OpenAIのo3-miniやDeepSeekのR1と同様にファクトチェックを行い、一般的な間違いを回避することができます。さらに、Grok 3は、GrokアプリケーションのDeepSearch機能を通じてAI駆動のリサーチをサポートし、インターネットとXソーシャルネットワークをスキャンして情報サマリーを提供します。Grok 3の開発には、メンフィスのデータセンターにある約20万個のGPUなど、膨大な計算リソースが使用され、そのトレーニングデータセットには裁判所の書類なども含まれています。

マルチモーダル
Feb 17

Goku

GokuByteDance

Gokuは、ストリーミングベースの動画生成基盤モデルであり、テキストから動画を生成するタスクに特化しています。このモデルは、高度な生成技術を用いて、テキストプロンプトに基づき高品質な動画コンテンツを生成でき、様々なシーンやスタイルの動画生成に対応しています。その重要性は、動画制作や広告制作などの分野において、効率的なコンテンツ生成ソリューションを提供し、制作コストを削減し、コンテンツの多様性を向上させる点にあります。Goku+はその派生バージョンであり、広告シーンに特化して最適化されており、広告ニーズに合致した動画コンテンツを生成できます。

動画
Feb 10

🔥 Gemini 2.0

Gemini 2.0Google

Gemini 2.0は、生成AI分野におけるGoogleの重要な進歩であり、最新の人工知能技術を代表します。強力な言語生成能力により、開発者に効率的で柔軟なソリューションを提供し、複雑な様々なシナリオに適用できます。

マルチモーダル
Feb 5

🔥 OpenAI Deep Research

OpenAI Deep ResearchOpenAI

Deep Researchは、OpenAIが開発したインテリジェントエージェント機能で、複雑な複数ステップの調査タスクを短時間で完了できます。インターネット検索と大量の情報分析を通じて、プロのアナリストレベルの包括的なレポートをユーザーに提供します。このツールは間もなくリリースされるOpenAI o3モデルを最適化しており、テキスト、画像、PDFファイルに対応し、金融、科学、政策、エンジニアリング分野のプロフェッショナルや、パーソナライズされたアドバイスを必要とする消費者など、深い調査を必要とするユーザーに適しています。

マルチモーダル
Feb 2

January

すべて (28)
OpenAI (4)
Mistral AI (2)
DeepSeek (3)
Anthropic (1)
小红书 (1)
ByteDance (3)
腾讯 (1)
MoonshotAI (1)
​Luma AI (1)
Black Forest Labs (1)
Moonshot AI (1)
MiniMax (1)
Jina AI (1)
阿里妈妈 (1)
商汤科技 (1)
阿里巴巴 (1)
Moondream (1)
OpenBMB (1)
Nvidia (1)
Jarvis (1)

🔥 OpenAI o3-mini

OpenAI o3-miniOpenAI

OpenAI o3-miniは、OpenAIが発表した最新の推論モデルであり、科学、技術、工学、数学(STEM)分野向けに最適化されています。低コストと低遅延を維持しながら、強力な推論能力を提供し、特に数学、科学、プログラミングにおいて優れた性能を発揮します。このモデルは、関数呼び出し、構造化出力などの様々な開発者向け機能をサポートしており、必要に応じて異なる推論強度を選択できます。

マルチモーダル
Jan 31

🔥 Mistral Small 3

Mistral Small 3Mistral AI

Mistral Small 3は、Mistral AIがリリースした、240億パラメーターを持つオープンソースの言語モデルで、Apache 2.0ライセンスの下で提供されています。このモデルは、低遅延と高効率なパフォーマンスを実現するために設計されており、迅速な応答が求められる生成AIタスクに適しています。多言語理解(MMLU)ベンチマークテストでは81%の精度を達成し、毎秒150トークンの速度でテキストを生成できます。

言語
Jan 30

🔥 ChatGPT Gov

ChatGPT GovOpenAI

ChatGPT Govは、OpenAIが米国政府機関向けに特注したAIモデルのバージョンであり、政府機関がAI技術を効果的に活用して複雑な問題を解決することを目的としています。OpenAIの先端技術に基づいており、公共衛生、インフラ、国家安全保障などの分野における政府の活動を支援するとともに、厳格なサイバーセキュリティとコンプライアンス要件を満たしています。

マルチモーダル
Jan 28

🔥 Janus-Pro

Janus-ProDeepSeek

Janus-Proは、DeepSeekチームが開発した高度なマルチモーダルモデルであり、マルチモーダルな理解と生成タスクの統一に焦点を当てています。従来のモデルが理解と生成タスクで抱える矛盾を、視覚エンコーディングパスを解耦合することで解決しています。このモデルは強力なTransformerアーキテクチャを基盤としており、視覚的質問応答、画像生成など、複雑なマルチモーダルタスクを処理できます。

マルチモーダル
Jan 27

Anthropic API Citations

Anthropic API CitationsAnthropic

Anthropic APIのCitations機能は強力な技術であり、Claudeモデルが回答を生成する際に、ソースファイル中の正確な文章や段落を参照することを可能にします。この機能は、回答の検証可能性と信頼性を高めるだけでなく、モデルが幻覚を起こす可能性も低減します。

言語
Jan 24

FireRedASR

FireRedASR小红书

FireRedASRは、オープンソースの工業レベルの標準中国語自動音声認識(ASR)モデル群であり、さまざまなアプリケーションにおける卓越した性能と最適な効率への多様なニーズを満たすことを目的としています。2つのバリアント、FireRedASR-LLMとFireRedASR-AEDを含みます。この技術の重要性は、音声認識技術の発展を推進し、工業レベルのアプリケーションに効率的で正確なソリューションを提供することにあります。

音声
Jan 24

🔥 Operator

OperatorOpenAI

Operatorは、OpenAIが提供するインテリジェントエージェント製品です。GPT-4oのビジョン能力と強化学習による高度な推論能力を組み合わせることで、人間のようにグラフィカルユーザーインターフェースと対話できます。フォームへの入力や食料品の注文など、さまざまな反復的なブラウザタスクを処理し、ユーザーの時間を節約します。

マルチモーダル
Jan 23

🔥 CUA

CUAOpenAI

Computer-Using Agent (CUA) は、OpenAI が開発した高度な人工知能モデルであり、GPT-4o のビジョン能力と、強化学習による高度な推論能力を組み合わせたものです。人間のようにグラフィカルユーザーインターフェース(GUI)と対話でき、特定のオペレーティングシステムの API やネットワークインターフェースに依存しません。CUA の柔軟性により、フォームへの入力やウェブページの閲覧など、さまざまなデジタル環境でタスクを実行できます。

マルチモーダル
Jan 23

🔥 Doubao-1.5-pro

Doubao-1.5-proByteDance

Doubao-1.5-proは、豆包チームが開発した高性能スパースMoE(Mixture of Experts)大規模言語モデルです。本モデルは、訓練と推論を一体化設計することで、モデル性能と推論性能の究極的なバランスを実現しました。複数の公開評価基準で優れた性能を示しており、特に推論効率とマルチモーダル能力において顕著な優位性を有しています。自然言語処理、画像認識、音声対話など、効率的な推論とマルチモーダルなインタラクションを必要とするシナリオに適しています。

マルチモーダル
Jan 22

UI-TARS

UI-TARSByteDance

UI-TARSは、バイトダンスが開発した新型GUIエージェントモデルであり、人間のような知覚、推論、行動能力を通じてグラフィカルユーザーインターフェースとシームレスにインタラクトすることに重点を置いています。このモデルは、知覚、推論、位置特定、記憶などの重要なコンポーネントを単一のビジョン言語モデルに統合しており、事前に定義されたワークフローや手動ルールを必要とせずに、エンドツーエンドのタスク自動化を実現できます。

マルチモーダル
Jan 22

Hunyuan3D 2.0

Hunyuan3D 2.0腾讯

Hunyuan3D 2.0は、テンセントが発表した高度な大規模3D合成システムであり、高解像度でテクスチャのある3Dアセットの生成に特化しています。このシステムは、大規模形状生成モデルHunyuan3D-DiTと大規模テクスチャ合成モデルHunyuan3D-Paintという2つの基本コンポーネントで構成されています。形状とテクスチャの生成という課題を解きほぐすことで、ユーザーに柔軟な3Dアセット制作プラットフォームを提供します。

画像
Jan 21

🔥 DeepSeek-R1

DeepSeek-R1DeepSeek

DeepSeek-R1は、DeepSeekチームが発表した第一世代の推論モデルです。大規模な強化学習によって訓練されており、教師なし微調整なしで優れた推論能力を発揮します。このモデルは、数学、コード、推論タスクにおいて優れた性能を示し、OpenAI-o1モデルと同等の能力を有しています。DeepSeek-R1は、様々な規模と性能要件のシナリオに適した、複数の蒸留モデルも提供しています。

言語
Jan 20

🔥 Kimi k1.5

Kimi k1.5MoonshotAI

Kimi k1.5は、MoonshotAIが開発したマルチモーダル言語モデルです。強化学習とロングコンテキスト拡張技術により、複雑な推論タスクにおけるモデルのパフォーマンスが大幅に向上しました。このモデルは、AIMEやMATH-500などの数学的推論タスクにおいて、GPT-4oやClaude Sonnet 3.5を上回るなど、複数のベンチマークテストで業界トップレベルの結果を達成しています。

言語
Jan 20

🔥 Trae

TraeByteDance

Traeは、開発者を対象としたAI駆動型の統合開発環境(IDE)です。インテリジェントなコード補完、マルチモーダルインタラクション、コードベース全体のコンテキスト分析などの機能を通じて、開発者がより効率的にコードを記述できるよう支援します。

言語
Jan 20

🔥 Ray2

Ray2​Luma AI

Luma AIがRay2動画生成モデルを発表しました。より速く、より自然な動きを実現します。主にテキストから動画を生成する機能をサポートしており、ユーザーは説明を入力することで、5~10秒の短い動画を生成できます。

動画
Jan 16

FLUX Pro Finetuning API

FLUX Pro Finetuning APIBlack Forest Labs

FLUX ProファインチューニングAPIは、Black Forest Labsが提供する、生成系テキストツーイメージモデルのカスタマイズツールです。少量のサンプル画像(1~5枚)を用いてFLUX Proモデルを微調整することで、特定のブランド、スタイル、または視覚的なニーズに合致した高品質な画像コンテンツを生成できます。

画像
Jan 16

🔥 moonshot-v1-vision-preview

moonshot-v1-vision-previewMoonshot AI

Kimiビジョンモデルは、Moonshot AIオープンソースプラットフォームが提供する高度な画像認識技術です。画像内の文字、色、物体形状などを正確に認識・理解し、強力な視覚分析能力をユーザーに提供します。

画像
Jan 15

🔥 MiniMax-01 series

MiniMax-01 seriesMiniMax

MiniMax-01シリーズはMiniMaxが公開したオープンソースモデルで、MiniMax-Text-01とMiniMax-VL-01が含まれています。本シリーズは革新的なライトニングアテンションメカニズムを初めて大規模に実装し、世界トップレベルのモデルに匹敵する性能を提供します。最大400万トークンの超長文コンテキストを効率的に処理でき、AIエージェント時代の先駆者です。

画像
Jan 15

ReaderLM v2

ReaderLM v2Jina AI

ReaderLM v2は、Jina AIが発表した、パラメーター数が15億個の小型言語モデルです。HTMLからMarkdownへの変換とHTMLからJSONへの抽出を専門としており、優れた精度を備えています。このモデルは29の言語に対応し、最大512Kトークンの入力と出力の組み合わせ長さを処理できます。

言語
Jan 15

🔥 Codestral 25.01

Codestral 25.01Mistral AI

Codestral 25.01は、Mistral AIが提供する最先端のプログラミング支援モデルであり、現在のプログラミングモデル分野における最先端技術を表しています。このモデルは、軽量で高速であり、80種類以上のプログラミング言語に精通しており、低遅延かつ高頻度の使用シナリオ向けに最適化されています。コード補完(FIM)、コード修正、テスト生成などのタスクに対応しています。

言語
Jan 14

🔥 万相营造

万相营造阿里妈妈

万相(ばんしょう)营造(じょうせい)は阿里巴巴(アリババ)ママが提供するAIクリエイティブデザインツールで、商売人が質の高いクリエイティブ素材を迅速に生成し、マーケティング効果を高めることを目的としています。高度なAI技術を活用し、画像から動画への変換、スマート試着、文案生成など、様々な機能を実現し、EC事業者の様々なマーケティングシーンにおけるニーズに応えます。

動画
Jan 14

🔥 DeepSeek APP

DeepSeek APPDeepSeek

DeepSeekアプリが正式にリリースされました。iOS版とAndroid版の両方が利用可能です。

言語
Jan 13

🔥 日日新融合大模型

日日新融合大模型商汤科技

商湯科技が「日日新」融合大規模モデルを発表、深層推論とマルチモーダル処理能力が大幅に向上。

言語
Jan 10

🔥 通义万相2.1模型

通义万相2.1模型阿里巴巴

アリババ傘下の通義万相ビデオ生成モデルが、新しい2.1バージョンを発表しました。

ビデオ
Jan 9

🔥 Moondream2

Moondream2Moondream

Moondreamは、エッジデバイス上で効率的に動作することを目的とした、小型の視覚言語モデルです。

言語
Jan 9

🔥 OpenBMB PRIME

OpenBMB PRIMEOpenBMB

Eurus-2-7B-PRIMEはo1に似ており、PRIME(IMplicit rEwardによるプロセス強化)手法を用いて訓練されています。この手法は、言語モデルの模倣を超えた推論能力や蒸留を向上させる、プロセス報酬を持つオンライン強化学習(RL)のオープンソースソリューションです。Eurus-2-7B-SFTから開始し、Eurus-2-RL-Dataで訓練されています。

言語
Jan 7

🔥 Nvidia Cosmos

Nvidia CosmosNvidia

NVIDIA Cosmos™は、最先端の生成ワールド基礎モデル(WFM)、高度なトークナイザー、ガードレール、およびデータ処理と管理パイプラインの高速化を組み合わせたプラットフォームであり、自動運転車(AV)やロボットなどの物理AIシステムの開発を加速することを目的としています。

ビデオ
Jan 6

🔥 J1 Assistant

J1 AssistantJarvis

羅永浩氏率いる人工知能スタートアップ企業Jarvisが、静かに「J1Assistant」というAIアシスタントソフトウェアをリリースしました。現在、このソフトウェアは海外でAndroid版のみ提供されています。

言語
Jan 6