9月25日、OpenAIは人気チャットAIであるChatGPTに、音声対話や画像認識などのマルチモーダル機能を追加しました。この新機能により、ユーザーは音声対話や画像アップロードによるインタラクションが可能になり、音声認識、テキスト認識、物体検出などの機能を利用できます。マルチモーダル版ChatGPTはGPT-4Vと呼ばれ、GPT-4と同時にトレーニングが完了していましたが、安全性を考慮してリリースが延期されていました。OpenAIは、この新機能はChatGPT Plusのサブスクリプションユーザーとエンタープライズユーザー向けにまず提供されると述べています。
関連AIニュースの推奨

モトローラの新Razr携帯電話、複数のAI技術を搭載 OpenAIの不在が注目を集める

マスクのxAIホールディングス、200億ドルの資金調達を計画 目標企業価値は1200億ドル超え

AIの新機能がネットユーザーを驚愕:写真の撮影場所を簡単に特定

AI時代における広告業界の適応:GoogleからChatGPTへの変遷
インターネット発展の歴史において、Googleの台頭はほぼ伝説的です。1999年の設立以来、Googleはシンプルで広告のない検索体験で多くのユーザーを獲得し、創設者のラリー・ペイジとセルゲイ・ブリンは初期において広告を強く避け、広告が検索の質に影響を与える可能性があると信じていました。しかし、2000年になると、Googleは収益化のためAdWordsを発表し、広告収入に依存する巨大企業へと急速に変貌を遂げ、広告は検索結果ページの重要な構成要素となりました。しかし

国内初のマルチモーダルAIプログラマーが正式に職場へ 文心快码CodingインテリジェントエージェントZulu正式リリース
百度Create AI開発者会議が北京で開催されました。この注目を集めるテクノロジーイベントで、百度は文心快码3.5バージョンと、国内初のマルチモーダルAIプログラマーである文心快码Comate Zuluインテリジェントエージェントを正式にリリースし、AIプログラミングツールの新たな発展段階への到来を示しました。
芯驰、次世代4ナノメートルAIコックピットチップX10を発表、インテリジェント運転体験を向上
芯馳科技が、次世代の4ナノメートルAIコックピットチップX10を発表しました。このチップは、高度なAI機能と70億パラメーターのマルチモーダル大規模モデルを搭載し、インテリジェント運転体験を大幅に向上させます。よりスムーズで安全な運転を実現する革新的な技術が搭載されています。

OpenAI、ChatGPTの新バージョンを発表:よりスマートで直感的なGPT-4o

Moonshot AIがKimi-Audioを発表:オープンソースの音声基礎モデルが新たな基準を確立
この度、Moonshot AIは、音声の理解、生成、インタラクション分野における技術の進歩を促進することを目的とした、全く新しいオープンソースの音声基礎モデルであるKimi-Audioを発表しました。この発表は、世界中のAIコミュニティから大きな注目を集め、マルチモーダルAI発展における重要なマイルストーンとみなされています。以下は、Kimi-Audioの主要な特徴、パフォーマンス、業界への影響に関する包括的なレポートです。画期的な特徴:万能な音声処理能力Kimi-Audio-7B-InstructはQwenに基づいています。
GPT-4による画像生成機能がカスタムGPTに統合されました

AI日報:百度の大型発表!文心大模型X1TurboとAIオープン計画を発表;OpenAIが軽量版Deep Researchを無料公開;即夢ビデオ3.0内測開始
百度が文心大模型X1TurboとAIオープン計画を発表、OpenAIが軽量版Deep Researchを無料公開、そして即夢ビデオ3.0の内測開始など、最新のAIニュースをお届けします。