AI日報へようこそ!ここは、あなたの人工知能の世界を探求するための毎日のガイドです。毎日、AI分野のホットなコンテンツを提供し、開発者に焦点を当て、技術トレンドの把握や革新的なAI製品の応用を理解するお手伝いをします。

最新のAI製品詳細はこちら:https://top.aibase.com/

1、新壹ビデオ大規模モデル2.0発表:1080P60fps出力対応 最大4K対応

新壹科技が最新発表した新壹ビデオ大規模モデル2.0は、AIビデオ制作分野で大きな進歩を遂げ、全工程の自動化制作を実現し、ビデオ制作のハードルとコストを削減しました。高度なAIアルゴリズムと深層学習技術を統合し、ワンクリックで簡単に操作できる機能を提供しています。同時に、独自の脚本モデル、感情表現豊かな音声合成技術、背景音楽の自動生成機能も備えています。

image.png

【AiBase要約:】

⚙️ 新壹ビデオ大規模モデル2.0は、全工程の自動化制作を実現し、ビデオ制作のハードルとコストを削減します。

💡 高度なAIアルゴリズムと深層学習技術を統合し、ワンクリックで簡単に操作できる機能を提供しています。

🎬 新壹ビデオ大規模モデル2.0は、独自の脚本モデル、感情表現豊かな音声合成技術、背景音楽の自動生成機能を備えています。

詳細リンク:https://aigc.yizhentv.com/product/aiVideo

2、OpenAIがGPT-4oモデルのファインチューニング機能を発表、毎日100万トークンを無料提供!

OpenAIは、新しいマルチモーダル大規模モデルGPT-4oを発表し、サードパーティの開発者が様々なアプリケーションのニーズに合わせてファインチューニングできるようにしました。開発者は、ファインチューニングダッシュボードでモデルバージョンを選択する簡単な操作で、毎日100万トークンをファインチューニングに無料で利用できます。同時に、OpenAIはデータの安全とプライバシー保護に重点を置き、ファインチューニング後のモデルが企業データを不正に使用しないようにしています。

image.png

【AiBase要約:】

🌟 ファインチューニング機能が利用可能に:開発者は、ニーズに合わせてGPT-4oモデルの動作を調整できます。

💰 無料トークン大量提供:毎日100万トークンをモデルのファインチューニングに提供し、多くの開発者の参加を促しています。

🔒 データセキュリティの確保:OpenAIはデータプライバシーとセキュリティを重視し、ファインチューニングされたモデルが入力出力データを使用して再トレーニングされないようにしています。

詳細リンク:https://platform.openai.com/finetune

3、新たなAIビデオツールが登場!Hotshotは最長10秒の動画を生成、ウォーターマークなし

Hotshotは、最長10秒、720pのビデオを生成できる新しいテキストからビデオへのAIジェネレーターで、大きな可能性を示しています。ユーザーは、このモデルの早期プレビューバージョンを無料で体験できますが、毎日生成できるウォーターマークなしのビデオは2本に制限されています。創設チームはわずか4ヶ月でモデルのトレーニングを完了し、6億個のビデオクリップと数千個のGPUを使用しました。将来的には、AI生成の完全なYouTubeビデオが普及し、クリエイターはより多くのコントロール権を持つと予想されています。

【AiBase要約:】

🌟 Hotshotの新しいテキストからビデオへのAIジェネレーターが公開「早期プレビュー」段階に入り、ユーザーは無料で体験できます。

🚀 このモデルはわずか4ヶ月で6億個のビデオクリップと数千個のGPUを使用してトレーニングされ、大きな可能性を示しています。

🎥 創設者のSastry氏は、今後1年以内にAI生成の完全なYouTubeビデオが普及し、クリエイターはより多くのコントロール権を持つと予測しています。

詳細リンク:https://top.aibase.com/tool/hotshot

4、LivePortraitアップデート:画像駆動の肖像アニメーションと詳細な領域制御に対応

LivePortraitのGradioツールが、一連の刺激的なアップデートを受けました。ユーザーは自分の画像を使用して肖像アニメーションを駆動できるようになり、アニメーション領域を細かく選択できるようになりました。追加された機能により、アニメーション制作の利便性と創作の自由度が向上し、同時にプライバシー情報も保護されます。LivePortraitの最大の強みは、驚くべき表情転送技術であり、生き生きとしたダイナミックな効果を生み出せます。

1.jpg

【AiBase要約:】

🚀 ユーザーは自分の画像を使用して肖像アニメーションを駆動し、アニメーション領域を細かく選択できます。

🎭 新しい相対運動機能によりプライバシーが保護されますが、表情の強度に影響を与える可能性があります。

💡 LivePortraitは表情を別の人物に正確に複製でき、前例のない創作の自由度を提供します。

詳細リンク:https://top.aibase.com/tool/liveportrait

5、AIによる即時画像編集ツールTurboEdit 一言で髪の色変更、若返り、衣装変更が可能!

TurboEditは、テキストベースの即時画像編集ツールで、簡単なテキストの説明で画像をすばやく編集できます。編集速度が非常に速く、即時フィードバックとインタラクティブな編集に対応しており、ユーザーは編集効果をリアルタイムで確認できます。プロのデザイナーでも一般ユーザーでも、TurboEditを使用して簡単に創造的なアイデアを実現できます。

【AiBase要約:】

✨ 一言の説明だけで画像をすばやく編集し、髪の色変更、若返り、衣装変更の効果を実現できます。

💡 TurboEditは画像全体を変更せずに、指定された部分のみを変更でき、ユーザーは自由に画像の任意の領域を調整できます。

🚀 TurboEditは、色、服装、スタイルなど、画像の複数の属性を同時に変更でき、創造性を無限に広げることができます。

詳細リンク:https://betterze.github.io/TurboEdit/

6、AIダンサーViggle:マスクとトランプを一緒に踊らせることも可能、月間アクセス数680万突破

マスクは再びインターネット上の影響力の強さを証明し、Viggle AIツールで公開されたビデオがインターネット上で爆発的な人気を博し、再生回数はすぐに1億3000万回を突破しました。Viggle AIのテンプレート化されたAIビデオ生成ツールはシンプルながらも強力で、一般ユーザーでもプロレベルのビデオを作成できます。月間アクセス数は680万回を突破し、AI技術が日常生活で活用されるマイルストーンを示しています。

image.png

【AiBase要約:】

🌟 Viggle AIは、写真とアクションテンプレートをアップロードするだけで、ユーザーは滑らかで自然なダンスビデオを簡単に作成できます。

🚀 マルチキャラクタコントロール機能Multiが追加され、ユーザーは2つのキャラクタを同時に操作でき、ネットユーザーの創造性を刺激し、二次創作ビデオの拡散が急速に進んでいます。

💡 Viggle AIのテンプレート化された操作により、創作のハードルが下がり、一般ユーザーでもプロレベルのビデオを作成できます。剪映やCapCutのような成功への道筋を示しています。

製品入口:https://top.aibase.com/tool/viggle

7、複雑な視覚推論のために誕生!マイクロソフトがPhi-3.5-visionを発表

マイクロソフトは、テキストとビジュアル入力の処理用に設計された、軽量でマルチモーダルのオープンソースAIモデルであるPhi-3.5-visionを最新発表しました。Phi-3.5-visionは、リソースが限られた環境でも優れたパフォーマンスを発揮し、128Kコンテキスト長に対応しており、商業および研究分野に適しています。このモデルは、幅広い画像理解、OCR、チャートとテーブルの解析などの機能を備え、ベンチマークテストで顕著な性能向上を示しています。

image.png

【AiBase要約:】

🔍 Phi-3.5-visionは、テキストとビジュアル入力の処理に適した、軽量でマルチモーダルのAIモデルです。

💡 このモデルは128Kコンテキスト長に対応し、メモリや計算リソースが限られた環境でも優れたパフォーマンスを発揮します。

🚀 Phi-3.5-visionは、画像理解、OCR、チャートとテーブルの解析などの機能を備え、顕著な性能向上を示しています。

詳細リンク:https://huggingface.co/microsoft/Phi-3.5-vision-instruct

8、バイトダンスの自動音声認識モデルSeed-ASR、様々なアクセントや方言を理解可能!

Seed-ASRは、バイトダンスが発表した音声認識エンジンで、大量のデータでトレーニングされており、優れた認識能力とコンテキスト認識能力を備えています。様々な言語、方言、アクセントを正確に認識でき、クロスリンガルのコミュニケーションに新たな可能性をもたらします。様々なシーンで優れたパフォーマンスを発揮し、ユーザーエクスペリエンスを向上させ、特にインテリジェントアシスタントや音声検索分野で優れたパフォーマンスを発揮します。

【AiBase要約:】

🔍 Seed-ASRは、2000万時間以上の音声データと90万時間以上のペアデータでトレーニングされており、13種類の中国語方言と7種類の外国語、様々なアクセントの英語を正確に認識できます。

🔑 Seed-ASRは優れたコンテキスト認識能力を備えており、過去の会話記録や会議議事録と組み合わせることで、認識精度が向上し、特に特定のシーンで優れたパフォーマンスを発揮します。

🎯 Seed-ASRは、医療、テクノロジー、自動車、音楽など、様々な専門分野の専門用語を認識でき、インテリジェントアシスタントや音声検索の効率と正確性を大幅に向上させます。

詳細リンク:https://bytedancespeech.github.io/seedasr_tech_report/

9、Llama3圧縮版!Nvidiaが小型言語モデルLlama-3.1-Minitron4Bを発表 パラメータ数はわずか4億

テクノロジー企業が人工知能の実現を目指して競争を繰り広げる中、NvidiaはLlama-3.1-Minitron4Bを発表しました。このモデルは、枝刈りと蒸留技術を採用し、高性能でトレーニングと展開の効率が優れています。

image.png

【AiBase要約:】

🌟 Llama-3.1-Minitron4Bは、Nvidiaが発表した小型言語モデルで、トレーニングと展開の効率が優れています。

📈 使用トークン数が40倍削減され、パフォーマンスが大幅に向上しています。

🔓 幅方向枝刈りバージョンがHugging Faceで公開され、商業利用と開発が容易になりました。

詳細リンク:https://developer.nvidia.com/blog/how-to-prune-and-distill-llama-3-1-8b-to-an-nvidia-llama-3-1-minitron-4b-model/

10、OpenAIとコンデナストが複数年にわたるコンテンツ連携を発表

先日、OpenAIとコンデナストは複数年にわたる連携契約を締結し、人工知能製品でコンデナスト傘下のブランドコンテンツを展示する方法を共同で模索することに合意しました。この連携は、デジタルコンテンツと人工知能分野の緊密な連携を示しており、ユーザーにより充実した検索体験と質の高い報道をもたらします。

【AiBase要約:】

🌟 OpenAIとコンデナストが複数年にわたる連携を発表、コンテンツはAI製品に組み込まれます。

📰 OpenAIは大規模言語モデルのトレーニングに、多くの出版社のテキストアーカイブを取得しました。

⚖️ 一部のメディア企業は、権利を守るためにOpenAIを訴えることを選択しています。

11、AIによる高評価の不正行為を厳しく取り締まる!米国政府が強力な措置を実施、虚偽のAI生成レビューを禁止

最近、米国連邦取引委員会(FTC)は重要な措置を取り、虚偽のAI生成レビューと推奨を全面的に禁止しました。この新しい規制は、オンラインレビューにおける不正行為を取り締まり、消費者権利を保護し、公正な競争市場環境を維持することを目的としています。FTC委員長のリナ・カーン氏は、虚偽のレビューは時間とお金を無駄にし、市場を汚染し、正直な競争相手からの注目をそらすと述べています。バイデン大統領はこの措置を支持し、消費者は顧客評価を信頼できるべきだと強調しています。

【AiBase要約:】

🔍 FTCは、虚偽のAI生成レビューを全面的に禁止し、消費者権利を保護し、公正な競争市場環境を維持することを決定しました。

📰 多くの有名メディアが架空の著者の製品レビューを発表し、レビューの虚偽性をさらに悪化させ、消費者の懸念を引き起こしています。