先日、中国科学院ゲノム研究所が構築したオープンバイオメディカルイメージングアーカイブOBIAが公開されました。これは中国初のオープンな生物医学イメージングと関連臨床データのストレージです。OBIAには、301病院の937人の患者、193万枚の医学画像が収録されており、9種類のモダリティ、30の解剖部位を網羅しています。OBIAは、画像データの匿名化、管理、品質管理を実現し、ユーザーに閲覧、検索、ダウンロードサービスを提供します。OBIAの構築は、国内の生物医学画像データのオープン共有における空白を埋め、データサイロの問題を克服し、医学画像に基づく人工知能技術の研究開発と応用を促進することに役立ちます。
関連AIニュースの推奨

高德マップ、HumanRig技術を発表 3D人間型キャラクターリギング設計用データセットをオープンソース化
高德マップは、HumanRig技術を発表し、3D人間型キャラクターのリギング設計に特化した業界初の広範なデータセットをオープンソース化しました。この技術は、キャラクターアニメーション制作コストの削減、アニメーション業界の高効率化・自動化への推進を目指しており、高德が推進する没入型ナビゲーション体験の重要な基盤インフラとなります。

ウィキペディア、AIトレーニングデータセットを公開、クローラーによるデータ取得を抑制
ウィキペディアは先日、Google傘下のデータサイエンスコミュニティプラットフォームKaggleとの協力により、人工知能モデルのトレーニング用に最適化されたデータセットを公開すると発表しました。この取り組みは、AI開発者がクローラープログラムを使用してウィキペディアのデータを収集する行為を減らし、プラットフォームの帯域幅とサーバーリソースを保護することを目的としています。このデータセットの内容には、構造化された英語とフランス語のウィキペディア情報が含まれており、機械可読性に優れ、AI開発者がモデリング、ファインチューニング、データ分析を容易に行うことができます。ウィキメディア財団は、このデータ...

上海人工知能研究所が小規模言語多モーダルデータセット「万巻・シルクロード2.0」をオープンソース化
上海人工知能研究所が公開した多言語多モーダルコーパス「万巻・シルクロード2.0」が正式にオープンソース化されました。このコーパスは、既存のアラビア語、ロシア語、韓国語、ベトナム語、タイ語の5言語に加え、セルビア語、ハンガリー語、チェコ語の3つの希少言語データを追加し、テキスト、画像、音声、ビデオの4つのモーダルを網羅しています。データ総量は1150万件を超え、音声・ビデオの長さは2万6000時間を超え、小規模言語多モーダル分野における重要なリソースとなっています。

バイトダンスがMulti-SWE-benchを発表、多言語コードの自動修正に新基準を確立
プログラム開発の世界において、バグ修正は常に悩みの種です。この度、バイトダンスのDoubao大規模言語モデルチームは朗報をもたらしました。同チームは、初の多言語ソフトウェアエンジニアリング(SWE)データセットであるMulti-SWE-benchを正式に発表しました。この新しいデータセットは、大規模言語モデルによるコードバグの自動修正能力を評価・向上させることを目的としています。Multi-SWE-benchは従来の単一言語データセットと比較して、適用範囲を大幅に拡大しています。このデータセットはPythonだけでなく、

バイトダンス、大規模言語モデルコードインテリジェントアップグレード推進のためMulti-SWE-benchをオープンソース化

AIシステムによる医療画像変化の精密検出
医療分野において、画像データの分析は複雑で煩雑なプロセスでした。最近、ウィル・コーネル医科大学の研究者らが、時間経過による医療画像の変化を高効率かつ正確に分析・検出できる、LILAC(学習に基づく縦断的画像変化推論)と呼ばれる新しいAIシステムを開発しました。この研究は2月20日に『米国科学アカデミー紀要』に掲載され、LILACの複数の医療現場における幅広い応用可能性を示しています。従来の医療画像分析方法は、多くのカスタマイズと事前準備を必要とする場合が多々ありました。

智元机器人AgiBotデジタルワールドシミュレーションフレームワーク上线、データセット豊富で多様

Google DeepMind、1000億規模のビジョン言語データセットWebLI-100Bを発表
Google DeepMindチームは、1000億個の画像テキストペアを含む巨大データセットWebLI-100Bを発表しました。これは、人工知能のビジョン言語モデルの文化的にも言語的にも多様な能力を向上させることを目的としています。このデータセットにより、研究者たちは、異なる文化や言語環境でのビジョン言語モデルのパフォーマンスを改善し、サブグループ間の性能差を縮小することで、AIの包括性を高めることを期待しています。ビジョン言語モデル(VLMs)は、学習のために大規模なデータセットに依存しており、…

小型ながら強力!マイクロソフトが小型モデルLLaVA-Radを発表、正確な放射線医学レポート生成を実現
先日、マイクロソフトリサーチはワシントン大学、スタンフォード大学、南カリフォルニア大学、カリフォルニア大学デービス校、カリフォルニア大学サンフランシスコ校の研究者らと共同で、LLaVA-Radを発表しました。これは、臨床放射線医学レポート作成の効率向上を目指した、新しい小型マルチモーダルモデル(SMM)です。このモデルの発表は、医学画像処理技術の大きな進歩を示すだけでなく、放射線医学の臨床応用にも新たな可能性をもたらします。バイオメディカル分野では、大規模基礎モデルに基づいた研究が進展しています。

メタ、著作権侵害疑惑:LibGenデータセットを用いたAIトレーニングと著作権情報の削除
メタは著作権侵害に関する訴訟に直面しています。原告弁護士によると、メタのCEOであるマーク・ザッカーバーグは、違法にコピーされた電子書籍や記事のデータセットを使用してLlama AIモデルをトレーニングすることを承認しました。この訴訟は、許可なく著作権で保護された作品をAIモデルのトレーニングに使用したとして非難されている複数のテクノロジー大手に対する、多くの著作権訴訟の一つです。水曜夜、カリフォルニア州北部地区連邦地方裁判所に提出された文書で、原告は昨年末のメタの証言を再確認しました。