先日、中国科学院ゲノム研究所が構築したオープンバイオメディカルイメージングアーカイブOBIAが公開されました。これは中国初のオープンな生物医学イメージングと関連臨床データのストレージです。OBIAには、301病院の937人の患者、193万枚の医学画像が収録されており、9種類のモダリティ、30の解剖部位を網羅しています。OBIAは、画像データの匿名化、管理、品質管理を実現し、ユーザーに閲覧、検索、ダウンロードサービスを提供します。OBIAの構築は、国内の生物医学画像データのオープン共有における空白を埋め、データサイロの問題を克服し、医学画像に基づく人工知能技術の研究開発と応用を促進することに役立ちます。
関連AIニュースの推奨

AIシステムによる医療画像変化の精密検出
医療分野において、画像データの分析は複雑で煩雑なプロセスでした。最近、ウィル・コーネル医科大学の研究者らが、時間経過による医療画像の変化を高効率かつ正確に分析・検出できる、LILAC(学習に基づく縦断的画像変化推論)と呼ばれる新しいAIシステムを開発しました。この研究は2月20日に『米国科学アカデミー紀要』に掲載され、LILACの複数の医療現場における幅広い応用可能性を示しています。従来の医療画像分析方法は、多くのカスタマイズと事前準備を必要とする場合が多々ありました。

智元机器人AgiBotデジタルワールドシミュレーションフレームワーク上线、データセット豊富で多様

Google DeepMind、1000億規模のビジョン言語データセットWebLI-100Bを発表
Google DeepMindチームは、1000億個の画像テキストペアを含む巨大データセットWebLI-100Bを発表しました。これは、人工知能のビジョン言語モデルの文化的にも言語的にも多様な能力を向上させることを目的としています。このデータセットにより、研究者たちは、異なる文化や言語環境でのビジョン言語モデルのパフォーマンスを改善し、サブグループ間の性能差を縮小することで、AIの包括性を高めることを期待しています。ビジョン言語モデル(VLMs)は、学習のために大規模なデータセットに依存しており、…

小型ながら強力!マイクロソフトが小型モデルLLaVA-Radを発表、正確な放射線医学レポート生成を実現
先日、マイクロソフトリサーチはワシントン大学、スタンフォード大学、南カリフォルニア大学、カリフォルニア大学デービス校、カリフォルニア大学サンフランシスコ校の研究者らと共同で、LLaVA-Radを発表しました。これは、臨床放射線医学レポート作成の効率向上を目指した、新しい小型マルチモーダルモデル(SMM)です。このモデルの発表は、医学画像処理技術の大きな進歩を示すだけでなく、放射線医学の臨床応用にも新たな可能性をもたらします。バイオメディカル分野では、大規模基礎モデルに基づいた研究が進展しています。

メタ、著作権侵害疑惑:LibGenデータセットを用いたAIトレーニングと著作権情報の削除
メタは著作権侵害に関する訴訟に直面しています。原告弁護士によると、メタのCEOであるマーク・ザッカーバーグは、違法にコピーされた電子書籍や記事のデータセットを使用してLlama AIモデルをトレーニングすることを承認しました。この訴訟は、許可なく著作権で保護された作品をAIモデルのトレーニングに使用したとして非難されている複数のテクノロジー大手に対する、多くの著作権訴訟の一つです。水曜夜、カリフォルニア州北部地区連邦地方裁判所に提出された文書で、原告は昨年末のメタの証言を再確認しました。

三省庁:全国各地における積極的な行政サービス大規模言語モデルの構築推進、デジタル経済発展への貢献
最近、国家発展改革委員会、国家データ局、工業情報化部が共同で『国家データインフラ整備ガイドライン』を発表しました。本ガイドラインは、全国各地における行政サービス大規模言語モデルの積極的な構築推進、行政サービスのインテリジェント化プロセスの促進、ひいては政府サービスの効率性と質の向上を目指しています。ガイドラインではデータアノテーション産業の重要性が強調されており、各地域におけるデータアノテーションのエコシステム構築、能力向上、およびシナリオ適用における探求と革新が奨励されています。政府は公共データとの連携、企業および個人データの積極的な公開、そして高品質データ資産の構築に取り組みます。

智元机器人、世界初の100万実機データセットAgiBot Worldをオープンソース化
上海のロボットスタートアップ企業である智元ロボットは、上海人工智能実験室、国家と地方が共同で建設したヒューマノイドロボットイノベーションセンター、上海クーパー社と協力し、汎用的なロボット大規模モデルの訓練を支援することを目的とした、100万実機データセットAgiBot Worldを正式にオープンソース化しました。これは、全世界初の、全領域の現実的なシナリオ、多様なハードウェアプラットフォーム、一貫した品質管理に基づいた100万実機データセットです。AgiBot Worldデータセットは、智元が独自に構築した大規模データ収集工場と応用実験基地で作成され、総面積は…

大発表:中国で初の百万級ロボットデータセットがオープンソース化、具象知能がImageNetモーメントを迎える
智元机器人は上海人工知能研究所などの機関と協力し、AgiBot Worldデータセットを正式に発表しました。これは、現実世界のシーンに基づいた世界初の百万級ロボットデータセットです。GoogleのOpen X-Embodimentと比較して、長期的データ規模は10倍、シーンのカバー範囲は100倍に拡大し、データ品質は産業レベルの基準に達しています。具象知能分野のImageNetモーメントと称賛されているこのオープンソースプロジェクトは、驚くべきロボット能力を示しています。リビングでの生け花から、台所の料理、スーパーでのレジ業務まで、幅広いタスクをこなすことができます。

アリババ傘下ZOLOZ、業界初となる百万級の高品質ディープフェイクデータセットを構築
先日、中関村フォーラムの一環として開催された第12回デジタル金融とテクノロジー金融会議において、アリババ傘下のZOLOZ(ゾロズ)のDeepfake検出ソリューションが「金融テクノロジー技術革新と応用事例」に選出されました。ZOLOZは傘下の天機ラボを基盤に、業界で初めて大規模で高品質なマルチモーダルDeepfakeデータセットを構築しました。これは百万を超えるマルチメディアコンテンツを合成しており、現実世界の金融リスク管理環境におけるDeepfake攻撃サンプルを十分にシミュレートし、金融分野における既存のDeepfake検出技術を評価するための基盤となります。

ハーバード大学、AIモデル向けの高品質トレーニング素材となる数千万冊の書籍データセットを公開
ハーバード大学は先日、約100万冊の公共ドメイン書籍で構成されるデータセットを公開する計画を発表しました。このデータセットは、誰でも大規模言語モデルやその他の人工知能ツールをトレーニングするために使用できます。このプロジェクトは、ハーバード大学の新設機関であるInstitutional Data Initiativeが主導し、マイクロソフトとOpenAIの資金提供を受けて完成しました。このデータセットには、Google Booksプロジェクトからのスキャン書籍が含まれており、シェイクスピア、ディケンズ、ダンテなどの古典作品を網羅しています。