AI日報：階躍星辰内測ビデオ大規模言語モデルStep-Video；即夢AI画像2.1モデルはテキスト生成に対応；テンセントが混元ビデオ生成大規模言語モデルを発表

AI日報へようこそ！ここでは、毎日人工知能の世界を探求するためのガイドとして、AI分野のホットなニュースを毎日お届けします。開発者を重視し、技術トレンドの把握や革新的なAI製品の応用に関する理解を深めるお手伝いをします。

最新のAI製品詳細はこちら:https://top.aibase.com/

1．階躍星辰の動画生成大規模モデルStep-Videoがクローズドβテストを開始躍問動画で申請可能

階躍星辰のStep-Videoモデルが正式にクローズドβテストを開始しました。躍問動画の公式サイトから資格を申請できます。このモデルは、テキストから最大1080Pの高解像度、最長10秒の動画を生成でき、プロンプトの自動最適化、美的スタイル、モーションコントロールにおいて顕著な優位性を示しています。

【AiBase要約：】
🎬 Step-Videoモデルは、テキストから高精細動画（最大1080P、最長10秒）を生成できます。
🌟 美的スタイルにおいて、Step-Videoは中国風のテーマの理解と生成に特に優れており、古詩の情景に合致しています。
⚙️ モーションコントロールにおいて優れた性能を発揮し、物理法則に沿った動画を生成し、複雑な空間関係を処理できます。
詳細リンク:https://top.aibase.com/tool/yuewenshipin

2．Lumaが新しい画像生成モデルLuma Photonを発表、高速で低コスト！

Luma Labsが発表したLuma PhotonとPhoton Flashは、非常に高速で低コストな画期的な画像生成モデルです。Luma Photonは複数のテストで優れた性能を示し、高品質な画像を生成でき、広告、映画、芸術など幅広い分野に適用できます。

【AiBase要約：】
🚀 Luma Photonの画像生成速度は市場の他のモデルの10倍で、1080p画像あたりのコストはわずか0.2セントです。
🎨 多段階の自然言語指示に対応し、ユーザーは生成内容を段階的に最適化でき、複雑なクリエイティブなタスクに適しています。
📈 品質、創造性、理解力において、Luma Photonは二重盲検試験で市場のすべてのモデルを上回っています。
詳細リンク:https://lumalabs.ai/photon

3．可灵AI監督共創プロジェクト作品が12月6日に公開 9本の映画レベルAI動画を公開予定

快手科技は、12月6日に中国初のAIGC監督共創プロジェクト「可灵AI監督共創プロジェクト」を正式に公開すると発表しました。このプロジェクトは、快手独自の動画生成大規模モデル「可灵AI」と複数の著名監督が共同で立ち上げ、AI技術を用いて映画制作の限界を広げることを目指しています。

【AiBase要約：】
🎥 このプロジェクトは快手科技と9人の著名監督が共同で立ち上げ、多様なテーマを扱います。
🤖 すべての短編は可灵AIを使用して動画を生成し、映画制作におけるAI技術の応用を推進します。
📈 可灵AIは公開以来、500万人以上のユーザーにサービスを提供し、5100万本の動画と1.5億枚の画像を生成しています。

4．バイトダンス傘下の即夢AIが画像2.1モデルのクローズドβテストを実施 AI生成画像でついに中国語フォントに対応！

バイトダンス傘下の即夢AIは最近、画像2.1モデルを発表し、AI画像生成における中国語フォントの問題を解決しました。ユーザーはテキストの説明を入力するだけで、簡単に個性的なポスターを生成でき、デザイナーの作業効率を大幅に向上させます。この新しいモデルは、ポスター作成、書籍カバーデザイン、ソーシャルメディアの画像など、幅広い用途に適用できます。

【AiBase要約：】
🎨 新モデルは中国語フォントの生成に対応し、ポスターデザインの効率を向上させます。
📚 ユーザーはテキストの説明を使用して、個性的なポスターやカバーを作成できます。
🌌 モデルの用途は広く、ソーシャルメディア、ストーリー作成などに適用できます。
詳細リンク:https://top.aibase.com/tool/jimeng

5．秘塔AI検索：「学術検索」データが7倍増加「説明」機能を追加

上海秘塔網絡科技有限公司は最近、AI秘塔の学術検索機能を大幅にアップグレードし、データ量が7倍に増加しました。ユーザーは、40％のSCI論文や「Nature」や「Science」などのトップジャーナルを含む、数千万件のオープンアクセス論文をより包括的に検索できるようになりました。今回のアップデートでは、「説明」機能も追加され、複雑な文献内容の理解を支援します。

微信截图_20241203091022.png

【AiBase要約：】
📈 データ量が7倍に増加し、数千万件のオープンアクセス論文を網羅し、検索能力が向上しました。
📝 「説明」機能を追加し、文献内の複雑な文章の理解を支援します。
🌍 44種類の言語翻訳モデルに対応し、小規模言語の論文の閲覧における障壁を取り除きます。

6．李飛飛の起業第一弾：一枚の画像からインタラクティブな3D世界を生成、AIGCが新たな時代へ！

李飛飛の最新の起業プロジェクトであるWorld Labsは、画期的な3D生成技術を発表しました。ユーザーは画像や文章を入力するだけで、インタラクティブな3Dシーンを作成でき、AIGCが新たな没入型時代に入ったことを示しています。この技術は、細部を正確に再現するだけでなく、様々なカメラ効果をシミュレートし、ユーザーに監督のようなコントロール感を与えます。

【AiBase要約：】
🖼️ 画像や文章一つで、生き生きとした3Dシーンを生成し、新しいインタラクティブ体験を提供します。
🎥 この技術は様々なカメラ効果のシミュレーションに対応し、ユーザーは3D世界で自由にカメラを操作できます。
🚀 World Labsは、3D世界の規模と精度を継続的に向上させ、より多くのユーザーインタラクション方法を探求する予定です。
詳細リンク:https://www.worldlabs.ai/blog

7．音声クローンによる著作権侵害に別れを告げる！Hume AIが音声制御機能を発表、パーソナライズされたAI音声を作成可能に

Hume AIは最近、「音声制御」という実験的な機能を発表し、ユーザーは簡単にパーソナライズされたAI音声を作成できるようになりました。コーディングスキルは不要です。この機能では、ユーザーはスライダーを使用して音声の特徴を調整でき、多様なカスタマイズオプションを提供し、多様な用途のニーズを満たすことを目指しています。

【AiBase要約：】
🔊 Hume AIは「音声制御」機能を発表し、ユーザーは簡単にパーソナライズされたAI音声を作成できます。
🛠️ この機能はコーディングスキルを必要とせず、ユーザーはスライダーを使用して音声の特徴を調整できます。
🌐 Humeは、パーソナライズされた感情的な知能を持つ音声AIを通じて、多様な用途のニーズを満たすことを目指しています。
詳細リンク:https://www.hume.ai/blog/introducing-voice-control

8．Cohereが新しい検索モデルRerank3.5を発表：100種類以上の言語に対応し、正確な検索が可能に

Cohereが最近発表したRerank3.5検索モデルは、企業データ検索における大きな進歩を示しています。このモデルは100種類以上の言語のクエリに対応し、特にアラビア語、日本語、韓国語などの主要なビジネス言語において優れた性能を発揮し、多国籍企業が言語の壁を克服するのに役立ちます。内部テストでは、Rerank3.5は金融サービス分野での性能が大幅に向上し、コスト削減とリスク軽減に貢献することが示されました。

【AiBase要約：】
📊 Rerank3.5は100種類以上の言語のクエリに対応し、グローバル企業が言語の壁を克服するのに役立ちます。
💡 内部テストでは、このモデルは金融サービス分野での検索性能が大幅に向上し、コスト削減とリスク軽減に貢献することが示されました。
🚀 Cohereは主要なクラウドプラットフォームへの展開を通じて、企業検索の業界標準となることを目指しており、同時に企業は急速に変化するAI環境に適応する必要があります。
詳細リンク:https://cohere.com/blog/rerank-3pt5

9．OpenAIのCFOが広告に関する噂に回答：現時点では広告モデルの導入は検討していない

OpenAIの最高財務責任者（CFO）であるSarah Friar氏はインタビューで、収益性の高い企業にとって魅力的な選択肢であるにもかかわらず、現時点では広告を導入する計画はないと述べました。Friar氏は、OpenAIは急速に成長しており、既存のビジネスモデルの中で機会を見出しており、将来的には他の収益源を探求する可能性があると述べています。

【AiBase要約：】
🌟 OpenAIのCFOであるSarah Friar氏は、現時点では広告を導入するつもりはなく、将来的には他の収益源を探求する可能性があると述べています。
💼 OpenAIは広告とマーケティングの分野の専門家を多数採用しており、将来的には広告モデルを検討する可能性を示唆しています。
🚪 会社幹部の頻繁な交代にもかかわらず、創設者のSam Altman氏は依然として会社のビジョンを推進しようとしています。

10．「David Mayer」という言葉を言うとChatGPTがクラッシュする、これはどのような謎の力なのか？

最近、ソーシャルメディアでは、OpenAIのチャットボットChatGPTが「David Mayer」という言葉を認識すると正常に反応せず、強制的に会話を終了するという不可解な現象が報告されています。この現象はネットユーザーの間で広く議論され、多くの人がChatGPTに「David Mayer」に関する情報を尋ねてみましたが、同じ結果に終わりました。

【AiBase要約：】
🌐 ChatGPTは「David Mayer」という言葉を認識すると反応せず、強制的に会話を終了します。
🔍 「David Mayer」はGDPRの「忘れられる権利」に関連する法的問題に関連している可能性があります。
🤔 その他の名前でもChatGPTに不具合が発生しており、AIモデルの複雑性を示しています。

11．WPS OfficeがAI音声速記機能を発表

WPS Officeは最近、AI音声速記機能を発表し、音声テキスト変換の体験を向上させました。リアルタイム録音と複数言語間の相互翻訳に対応しています。この機能は、音声認識とAIによる自動要約によって精度を向上させ、WPSクラウドドキュメントと深く統合することで、録音中に録音作業をスムーズに継続できます。最新バージョンのWPS Officeで簡単にこの機能を見つけて使用できます。

微信截图_20241203150637.png

【AiBase要約：】
🗣️ 音声速記機能はリアルタイム録音と音声テキスト変換を実現します。
🌐 中国語、英語など複数の言語の相互翻訳機能に対応しています。
🔒 セキュアなドキュメントコラボレーション体験を提供し、ユーザーの利便性を向上させます。

12．テンセントが混元動画生成大規模モデルを発表：130億パラメーターで完全オープンソース

テンセントは混元動画生成モデルを発表しました。130億パラメーターを持つ、現在最大のオープンソース動画生成モデルです。このモデルは高精細でリアルな動画生成に対応し、広告やクリエイティブな動画などの商業用途に適しています。テンセント元宝アプリとテンセントクラウドインターフェースを通じて試用または接続でき、動画生成の技術的ハードルを下げ、AI技術の普及を促進します。

【AiBase要約：】
🎥 混元動画生成モデルは超写実的な質感で、様々な商業シーンで使用できます。
🔧 このモデルでは、ユーザーが生成内容を詳細に描写でき、高度な意味論的追従性を提供します。
🌐 オープンソースモデルはAI動画生成技術の民主化を推進し、創造性と開発者のイノベーションを促進します。
公式サイト：https://aivideo.hunyuan.tencent.com