AI日報：張文宏がAIに成り済まされライブコマースで商品販売；Kimiビジュアル思考版が登場；微信がAIによる有名人のなりすまし行為を取り締まる；Pika 2.0で動画コンテンツ要素を操作可能に

【AI日報】へようこそ！ここでは、人工知能の世界を探求するための毎日のガイドを提供します。毎日、AI分野のホットな話題、開発者に焦点を当て、技術トレンドの把握や革新的なAI製品の応用を理解するお手伝いをします。

最新のAI製品詳細はこちら:https://top.aibase.com/

1、微信：AIを利用した有名人のなりすましマーケティング行為を取り締まる

微信珊瑚安全は最近、発表を行い、AI技術を利用して有名人を装い不適切なマーケティングを行う行為を厳しく取り締まることを明確にしました。プラットフォームは、ネットワーク環境の安全と健全性を維持することに尽力しており、532件の違反コンテンツを処理し、関連アカウント209件を閉鎖しました。今後は、このような行為に対する取り締まりを強化していきます。

微信截图_20241216081617.png

【AiBase要約:】
🛡️ 微信は、AIを利用した有名人のなりすましマーケティング行為を取り締まることを強調し、安全なネットワーク環境の構築に尽力しています。
📊 現在までに、微信は532件の違反コンテンツを処理し、関連アカウント209件を閉鎖しており、強力なガバナンス能力を示しています。
🤝 微信は、ユーザーに法規制を遵守し、積極的に違反行為を報告するよう呼びかけ、ネットワークの健全なエコシステムの維持を促しています。

2、月之暗面Kimiビジュアル思考版登場：k1モデルベース、画像内容を識別可能

月之暗面のAIアシスタントKimiは最近、ビジュアル思考版機能をリリースしました。ユーザーが送信した画像を深く分析・観察することができます。この機能はk1ビジュアル思考モデルに基づいており、Kimiは画像の内容をインテリジェントに識別し、正確なフィードバックを提供します。ユーザーは、写真の撮影場所に関する質問や、画像内の問題の解答依頼など、Kimiに直接質問できます。

【AiBase要約:】
🖥️ Kimiの新しいビジュアル思考機能は、ユーザーが送信した画像を詳細に観察・分析することができます。
📸 ユーザーは、撮影場所についてKimiに質問でき、Kimiは画像の内容に基づいて推測します。
💡 ユーザーはスクリーンショットを送信して、画像内の問題の解答をKimiに依頼でき、より便利なサービス体験を提供します。

3、階躍星辰Step-1o Audio、千億パラメーターのエンドツーエンド音声大規模モデルが登場、躍問Appに統合予定

階躍星辰が発表したStep-1o音声大規模モデルは、国内初の千億パラメーターのエンドツーエンド音声モデルであり、音声技術の大きな進歩を示しています。このモデルは、音声の理解と生成の高レベルな統合を実現するだけでなく、EQとIQの両方の利点を備えており、複雑な意味と感情情報を理解し、質の高い専門的なアドバイスを提供できます。Step-1oの幅広い応用可能性は、様々な業界の音声インタラクション技術に新たな可能性をもたらします。

微信截图_20241216081425.png

【AiBase要約:】
🎤 Step-1oは、国内初の千億パラメーターのエンドツーエンド音声大規模モデルであり、強力な音声理解と生成能力を備えています。
🤖 このモデルは、複雑な意味と感情情報を理解し、専門的なアドバイスを提供でき、高いIQとEQを示しています。
📱 Step-1oは躍問Appに統合され、ユーザーは電話でリアルタイムの音声交流を行うことができ、応用シーンを拡大します。

4、Pika2.0リリース：テキストアライメント機能が改善、ビデオコンテンツ要素を自由に操作可能

Pikaは最近、最新のAIビデオ生成ツールPika2.0をリリースし、クリエイティブAI分野におけるさらなる発展を示しました。新バージョンでは、より多くの制御権とカスタマイズ性が提供され、特にテキストアライメントとモーションレンダリングの面で顕著な改善が見られ、ユーザーはより簡単に高品質のビデオコンテンツを作成できます。Pika2.0は、個人クリエイターや小規模ブランドのニーズを満たすように設計されており、より多くのユーザーの参加が見込まれています。

【AiBase要約:】
✨ Pika2.0は改善されたテキストアライメント機能を導入し、ユーザーによるビデオ生成のプロセスを簡素化します。
🚀 新しいモーションレンダリング技術により、より自然な動きを実現し、ビデオの品質を向上させます。
🎨 新しい「シーンコンポーネント」機能により、ユーザーはキャラクターや背景をカスタマイズでき、創造性を高めます。

5、アリババ通義ラボの音声生成大規模モデルCosyVoiceが2.0バージョンにアップグレード

アリババの通義ラボのCosyVoice音声生成大規模モデルが2.0バージョンにアップグレードされ、音声生成の正確性、安定性、自然な体験が大幅に向上しました。新バージョンは双方向ストリーミング音声合成技術を採用することで、合成遅延を削減し、発音の正確性において顕著な進歩を遂げました。CosyVoice2.0は音質と感情の一致も強化し、様々な方言とロールプレイング機能をサポートしています。

【AiBase要約:】
🚀 CosyVoice2.0は双方向ストリーミング音声合成を実現し、合成遅延は150msに達し、応答速度が向上しました。
📉 発音の正確性が大幅に向上し、エラー率は30％〜50％低下し、ハードテストセットで最低の文字エラー率を達成しました。
🎤 多様な方言と感情制御をサポートし、より豊富な言語選択とロールプレイング機能を提供します。
詳細リンク:https://github.com/FunAudioLLM/CosyVoice

6、張文宏氏がAIに「なりすまし」販売

最近、張文宏氏に関するライブコマース動画が大きな注目を集めていますが、実際にはAI技術で合成されたディープフェイクでした。多くのネットユーザーは張文宏氏が商品販売をしていると誤解しており、特に高齢者の視聴者はそれを信じて情報を拡散しました。張文宏氏はこれについて複数回苦情を申し立て、AI合成情報に対する警戒を呼びかけています。この事件は、大衆の新しい技術に対する認識の遅れ、特に高齢者が誤解されやすいことを浮き彫りにしています。

【AiBase要約:】
🌐 AI合成された張文宏氏がライブコマースで話題となり、一部のネットユーザーがその身分を誤信しました。
🔍 大衆は新しい技術に対する認識が遅れており、誤った情報の影響を受けやすいです。
🛡️ 技術的な予防策と情報監視メカニズムを強化し、大衆の識別能力を高めることが重要です。

7、無問芯穹、初のエッジ側全モダリティ理解オープンソースモデルMegrez-3B-Omniを発表、10億元近い資金調達

無問芯穹はAI分野で重要な進歩を遂げ、世界初のエッジ側全モダリティ理解オープンソースAIモデルMegrez-3B-Omniを発表し、技術革新におけるリーダーシップを示しました。同時に、純粋な言語バージョンのモデルも発表し、製品ラインをさらに充実させました。無問芯穹は効率的なAI計算最適化に取り組んでおり、既に様々な主流モデルをサポートし、約5億元のAラウンド資金調達を成功させました。

【AiBase要約:】
🌟 無問芯穹は世界初のエッジ側全モダリティ理解オープンソースAIモデルMegrez-3B-Omniを発表し、製品ラインを強化しました。
💰 同社は10億元近い資金調達を行い、今後3～5年のうちに規模拡大による収益化を目指しています。
🤝 無問芯穹はコンピューティング能力の使用効率を最適化し、多くの有名な投資機関と緊密に協力しています。
詳細リンク:https://huggingface.co/Infinigence/Megrez-3B-Omni

8、百度文库APP、「AI考研宝典」をリリース、AIによる画像撮影によるライティングなど多数の機能をサポート

大学院入試の試験が近づくなか、百度文库APPは新しい「AI考研宝典」をリリースし、大学院受験生に効率的な学習と試験準備のサポートを提供します。このプラットフォームは人工知能技術を活用し、革新的なツールを通じて受験生の復習効率と試験点数を向上させます。AIによる画像撮影によるライティング、インテリジェントなQ＆A、英語エッセイの美化など、受験生の学習プロセスを大幅に簡素化し、大学院入試の課題に効果的に対応できるようにします。

【AiBase要約:】
📸 AIによる画像撮影によるライティング機能により、解答の詳細を迅速に取得し、解題効率を向上させます。
📝 インテリジェントなQ＆AとAIドキュメント要約を提供し、受験生が知識点を整理するのに役立ちます。
🌐 AIによる全網検索機能は情報を統合し、構造化された図解による回答を提供します。

9、マスク氏のXプラットフォームGrok AIがアップグレード：3倍の速度向上、従来メディアからの引用がより正確に

xAIは最近、Grok AIチャットボットを大幅にアップグレードし、Grok-2バージョンをリリースしました。パフォーマンスが大幅に向上し、速度は以前のバージョンの3倍になり、正確性と言語サポートも大幅に改善されました。新バージョンはXプラットフォーム上の投稿情報だけでなく、外部ウェブサイトの情報、特にニュースソースを引用でき、回答の信頼性を高めています。さらに、新しいGrokボタンは議論にコンテキストを提供し、ユーザーが会話の内容をよりよく理解するのに役立ちます。

【AiBase要約:】
📈 Grok-2の速度は以前のバージョンの3倍で、正確性と言語サポートが大幅に向上しました。
📰 新バージョンは外部メディアの情報を引用でき、出典を付記することで回答の信頼性を高めます。
🔍 新しいGrokボタンは議論にコンテキストを提供し、会話内の画像を説明します。

10、武漢大学が人工知能学院を設立、小米集団が連携強化に期待

武漢大学人工知能学院の設立は、同大学の人工知能分野における研究と教育が新たな段階に入ったことを示しています。学院は、数理基礎、機械学習、知能自然科学、社会科学などに重点を置きます。2025年には学部生と修士・博士課程の学生の募集を開始し、多様な分野のクロスオーバーイノベーションを推進します。同時に、小米集団は学院との連携強化に期待し、人工知能技術の発展を共同で推進します。

【AiBase要約:】
🌟 武漢大学人工知能学院が正式に発足し、張平文院士が初代院長に就任しました。
🎓 学院は2025年から学部生と修士・博士課程の学生の募集を開始し、多様な分野のクロスオーバー研究に重点を置きます。
🤝 小米集団は学院との連携強化に期待し、人工知能技術の応用と発展を共同で推進します。

11、Nexa AI、エッジデバイス向け高速オーディオ言語モデルOmniAudio-2.6Bを発表

Nexa AIは最近、エッジデバイスの高効率な展開向けに設計されたOmniAudio-2.6Bオーディオ言語モデルを発表しました。このモデルは複数のコンポーネントを統一されたフレームワークに統合することで、処理速度とリソース効率を大幅に向上させ、計算リソースが限られた環境にも適応します。正確性と柔軟性にも優れており、転写、翻訳など様々なタスクのニーズを満たすことができます。

【AiBase要約:】
⚡ 処理速度が卓越：2024Mac Mini M4Proでは、モデルは毎秒35.23トークンの処理速度を実現し、顕著な速度の優位性を示しています。
🌐 リソース効率が高い：コンパクトな設計により、クラウドリソースへの依存を減らし、ウェアラブルデバイスや自動車システムなど、電力と帯域幅が制限されたデバイスに適しています。
✅ 高い正確性と柔軟性：転写、翻訳など様々なタスクに適用でき、正確なリアルタイム音声処理結果を提供できます。
詳細リンク:https://huggingface.co/NexaAIDev/OmniAudio-2.6B

12、OpenAI、ChatGPTのダウンタイムに関する詳細なレポートを発表：小さな変更が原因

先週、OpenAIのChatGPTとSoraなどのサービスが4時間10分にわたってダウンし、多くのユーザーに影響を与えました。障害の根本原因は、小さなテレメトリサービスの変更であり、Kubernetes API操作の過負荷を引き起こし、最終的にサービスが停止しました。エンジニアは重要な局面でコントロールプレーンにアクセスできず、問題を迅速に解決できませんでした。複数回の試行錯誤の後、クラスタの規模縮小やリソースの追加などを行い、最終的にサービスを復旧しました。