【AI日報】へようこそ!ここは、人工知能の世界を探求するためのあなたの毎日のガイドです。毎日、AI分野のホットなニュースをお届けし、開発者をフォーカスすることで、技術トレンドの把握や革新的なAI製品の応用を理解するお手伝いをします。
最新のAI製品詳細はこちら:https://top.aibase.com/
1、最高価格!OpenAIがアップグレード版AIモデルo1-proを発表、生成価格はo1の10倍
OpenAIは最近、より高品質の推論能力を提供することを目的とした次世代AIモデルo1-proを発表しました。しかし、その高額な価格設定は大きな注目を集めています。o1-proの入力と生成の価格は、それぞれGPT-4.5と通常のo1の2倍と10倍です。それでもOpenAIは、その性能に大きな期待を寄せ、複雑なタスクの開発者のニーズを満たすことができると考えています。
【AiBase要約:】
💡 OpenAIが推論能力向上を目指した新しいAIモデルo1-proを発表。
💰 o1-proの価格は非常に高く、入力費用はGPT-4.5の2倍、生成費用は通常のo1の10倍。
🤔 早期ユーザーからのフィードバックは賛否両論あるものの、コーディングや数学の問題ではより信頼性の高い結果を示す。
2、モーション制御可能!階躍星辰 Step-Video-TI2V 画像生成ビデオモデルがオープンソース化
上海階躍星辰智能科技有限公司が発表したStep-Video-TI2Vモデルは、画像生成ビデオ分野で顕著な革新性を示しています。このモデルは300億パラメーターのStep-Video-T2Vをベースにしており、高品質のビデオを生成でき、モーションの幅とカメラワークを制御できます。アニメーション制作や短編動画制作に特に適しています。生成の一貫性とダイナミズムを最適化することで、クリエイターにより柔軟な選択肢を提供し、様々なサイズと効果のニーズに対応できます。
【AiBase要約:】
🚀 Step-Video-TI2Vモデルは300億パラメーターをベースに、5秒、540P解像度のビデオを生成可能で、モーションの幅とカメラワークを制御できる点が特徴。
🎨 アニメーション効果において優れたパフォーマンスを発揮し、アニメーション制作や短編動画制作に適しており、様々なサイズの生成に対応。
🔧 画像条件とAdaLNモジュールの導入により、生成ビデオと元の画像の一貫性とダイナミックな制御能力が向上。
詳細リンク:https://yuewen.cn/videos
3、テンセント混元が新たな動き!新しい推論モデルT1が3月21日夜に発表
テンセント混元は、新しい推論モデルT1を3月21日に正式発表すると発表しました。これは、人工知能大規模モデル分野における技術革新と製品アップグレードを示しています。同時に、テンセント混元大規模モデルはChatbot Arenaの世界ランキングTop15に初めてランクインし、その技術力が国際的なトップレベルに達していることを示しています。外界は、T1モデルの推論能力の向上に期待しており、テンセントが世界の大規模モデル競争における地位をさらに強化することを期待しています。
【AiBase要約:】
🚀 テンセント混元が3月21日に新しい推論モデルT1を発表、技術アップグレードを示す。
🏆 テンセント混元大規模モデルがChatbot Arenaの世界ランキングTop15に初ランクイン、技術力を示す。
🌍 外界はT1モデルの推論能力の向上に期待し、テンセントの世界競争における地位強化を期待。
4、コストはわずか1/10!Open-Sora 2.0 オープンソースビデオAIが商用レベルの画質を実現
HPC-AI Techが最近発表したOpen-Sora2.0は、画期的なビデオAIシステムです。そのトレーニングコストは従来システムの1/10に過ぎず、出力品質は商用製品に匹敵します。このシステムは3段階のトレーニングプロセスと効率的な自動エンコーダーにより、トレーニング速度を大幅に向上させています。解像度とビデオの長さには制限がありますが、Open-Sora2.0の登場は、ビデオAI分野のコスト構造に大きな影響を与え、オープンソースと商用システム間の競争を促進する可能性があります。
【AiBase要約:】
💡 Open-Sora2.0のトレーニングコストはわずか20万ドルで、既存の高品質ビデオ生成システムの数百万ドルのコストをはるかに下回る。
⚙️ このシステムは3段階のトレーニングプロセスとビデオDC-AE自動エンコーダーを採用し、5.2倍高速なトレーニング速度と10倍以上のビデオ生成速度を実現。
📈 Open-Sora2.0のVBenchスコアはOpenAIのSoraとわずか0.69%しか変わらず、視覚的な品質やプロンプトの正確性において優れたパフォーマンスを発揮。
5、ボストンダイナミクスAtlasロボットが新たなブレイクスルー:動作能力が人間レベルに近づく
ボストンダイナミクス社は最近、ヒューマノイドロボットAtlasの最新の動作能力を公開しました。強化学習とモーションキャプチャ技術を組み合わせることで、Atlasは自己学習を行い、より自然で柔軟な人間のような動作を示すことができるようになりました。この技術的ブレークスルーは、ヒューマノイドロボットを現実のアプリケーションシナリオにより近づけると考えられており、特に産業、医療、救助などの分野での潜在的な応用が期待されています。
【AiBase要約:】
🤖 Atlasは強化学習とモーションキャプチャ技術により、より自然な人間のような動作を実現。
🚀 この技術的ブレークスルーにより、複雑な環境におけるロボットの適応性と協調性が向上。
🌐 ボストンダイナミクスとRAI Instituteの協力により、ヒューマノイドロボット技術の商業化の可能性がさらに広がる。
6、衝撃!ヒューマノイドロボットが「人間離れ」の動作を披露、Unitree G1が世界初で側転を成功、人間に挑戦状!
Unitree RoboticsのG1ヒューマノイドロボットは、高度な側転を成功させ、着地も安定しており、ロボットの運動能力における大きなブレークスルーを示しています。この成果は、G1の高い信頼性と成功率を示すだけでなく、世界中のテクノロジー愛好家の注目を集めています。さらにその能力を検証するために、Unitree Roboticsは「ロボット側転人間チャレンジ」を開催し、人間がこの高度な動作に挑戦することを促しています。優勝者にはG1ロボットまたは同等の賞品が贈られます。
【AiBase要約:】
🤸♂️ Unitree RoboticsのG1ロボットが側転を成功させ、世界初の快挙。
🏆 Unitree Roboticsが「ロボット側転人間チャレンジ」を開催、人間に挑戦を促す。
🌍 このコンテストは世界中のテクノロジー愛好家の注目を集め、ロボットの側転を成功させた最初の人間に期待が集まる。
7、Adobeが「Project Slide Wow」を発表、データが魅力的なPPTに一瞬で変身
Adobeの年次デジタルイノベーションカンファレンスで発表された「Project Slide Wow」プロジェクトは、市場の大きな注目を集めています。この生成AI駆動のツールは、生の顧客データを魅力的なPowerPointプレゼンテーションに迅速に変換することを目的としており、データアナリストやマーケティング担当者の作業を大幅に簡素化します。高品質なスライドを自動生成し、内蔵のインテリジェントアシスタントにより、ユーザーはプレゼンテーションの内容をリアルタイムで更新および調整でき、情報の正確性とタイムリー性を確保できます。
【AiBase要約:】
✨ 生成AIツールが生のデータを高品質なPPTに迅速に変換し、作成プロセスを大幅に簡素化。
🤖 内蔵のインテリジェントアシスタントがユーザーのニーズにリアルタイムで対応し、追加の視覚化とダイナミックなスライド生成を提供。
📊 リアルタイムデータ更新機能により、プレゼンテーションの情報は常に最新の状態を保ち、企業の意思決定効率を向上。
8、Orpheus TTS:人間に近い感情表現を実現した次世代TTSモデル
Orpheus TTSは新しく発表されたオープンソースのテキスト読み上げモデルで、超低遅延と高い感情表現能力により大きな注目を集めています。このモデルはリアルタイムの会話シーンで優れたパフォーマンスを発揮し、自然で滑らかな音声出力を提供することで、スマート音声インタラクションの体験を大幅に向上させます。そのオープンソースの特性は、開発者により多くのカスタマイズの可能性を提供し、将来多くの分野でベンチマークになる可能性があります。
【AiBase要約:】
⚡ **超低遅延**: デフォルトの遅延は約200ミリ秒で、最適化により25~50ミリ秒に短縮可能、リアルタイム会話のニーズに対応。
🎭 **感情表現**: 音声出力は自然で滑らかで、豊富なイントネーションの変化に対応し、インタラクション体験を向上。
🎙️ **リアルタイム出力ストリーム**: ストリーミングオーディオ生成に対応し、音声生成と入力が同期し、様々なシーンに適用可能。
詳細リンク:https://github.com/canopyai/Orpheus-TTS
9、LGがEXAONE Deepモデルをオープンソース化、韓国初の自社開発推論AIモデルと発表
LG AI Researchは最近、EXAONE Deep推論AIモデルをオープンソース化しました。これはAIがアクティブなAIの新時代に入ったことを示しています。このモデルは320億のパラメーターで優れた推論能力を示し、特に論理推論と数学分野で優れたパフォーマンスを発揮し、韓国の大学入試数学で94.5点という高得点を獲得しました。
【AiBase要約:】
🧠 EXAONE Deepは韓国初の自社開発推論AIモデルで、仮説の独自設定と推論検証能力を備えている。
📊 320億パラメーターのEXAONE Deepは論理推論と数学分野で優れたパフォーマンスを発揮し、特に韓国の大学入試で94.5点の高得点を獲得。
📱 LGは軽量モデルとエッジモデルもオープンソース化しており、それぞれ95%と86%のパフォーマンスを維持し、スマートフォン、自動車など様々な業界に適用可能。
詳細リンク:https://top.aibase.com/tool/exaone-deep
10、Google ChromeブラウザにGemini AIアシスタントが統合される見込み、操作性が向上!
インターネット技術の急速な発展を背景に、Google ChromeブラウザにGemini AIアシスタントが深く統合される見込みです。この機能はユーザーのオンライン体験を大幅に向上させ、操作性を向上させます。ユーザーはウィンドウの先頭にあるアイコンから直接Geminiアシスタントを呼び出し、カスタムショートカットキーとシステムトレイアイコンのサポートを利用できますが、現時点ではサイドバーの固定モードはサポートされていません。
【AiBase要約:】
✨ Gemini AIアシスタントがChromeブラウザに深く統合され、ユーザーのオンライン体験を向上。
🔧 ユーザーはウィンドウの先頭にあるアイコンからGeminiアシスタントを迅速に呼び出し可能で、カスタムショートカットキーに対応。
🗣️ Geminiアシスタントは音声検索などの機能に対応しているが、現時点ではサイドバーの固定モードはサポートされていない。