AI分野において、新たな勢力が台頭しています。アブダビ技術革新研究所(TII)は、最新の巨大言語モデルFalcon2をオープンソースとして公開しました。110億パラメーターを持つこのモデルは、その優れた性能と多言語対応能力で世界的な注目を集めています。
Falcon2には2つのバージョンがあります。1つは、展開が容易な基本版で、テキスト、コード、要約の生成が可能です。もう1つは、画像情報をテキストに変換できるVLMモデルで、これはオープンソースの大規模言語モデルとしては非常に珍しい機能です。複数のベンチマークテストにおいて、Falcon2 11BはMetaのLlama 38Bを上回り、GoogleのGemma 7Bと並んでトップの座を獲得しており、その卓越した性能が証明されています。
画像出典:AI生成画像、画像ライセンス提供元Midjourney
Falcon2 11Bは多言語に対応しており、英語、フランス語、スペイン語、ドイツ語、ポルトガル語など、さまざまな言語のタスクを容易に処理できます。これにより、さまざまな場面での応用可能性が高まります。視覚大規模言語モデルであるFalcon2 11B VLMは、医療、金融、eコマース、教育、法律などの業界で幅広く活用でき、環境内の画像や視覚情報を認識・解釈できます。
Falcon2 11Bは、独自に構築したオープンソースデータセットRefinedWebを用いて、5.5兆トークン以上のデータで事前学習されています。このデータセットは、高品質で、フィルタリングおよび重複除去が施されており、TIIは厳選されたコーパスで強化し、4段階のトレーニング戦略を採用することで、モデルのコンテキスト理解能力を向上させています。
特筆すべきは、Falcon2は高性能で消費電力が低い大規模言語モデルであり、1つのGPUだけで効率的に動作できる点です。そのため、拡張性が高く、展開が容易で、ノートパソコンなどの軽量デバイスにも統合できます。これは中小企業や個人開発者にとって大きな利点であり、商業利用も可能です。
TIIの人工知能クロスセンター部門のエグゼクティブディレクター兼代理首席研究員であるHakim Hacid博士は、生成AI技術の発展に伴い、開発者は小型モデルの利点、つまり計算資源の削減、持続可能性基準の遵守、柔軟性の向上を認識していると述べています。
2023年5月、TIIはFalcon-40B大規模言語モデルを初めてオープンソースとして公開し、huggingfaceのオープンソース大規模言語モデルランキングで1位を獲得し、数々の有名なオープンソースモデルを凌駕しました。Falcon-40Bは1兆トークンのデータセットでトレーニングされ、テキストの質問応答、要約、コードの自動生成、言語翻訳などに使用でき、特定のビジネスシナリオに合わせて微調整できます。
2020年に設立されたTIIは、アブダビ高等教育科学技術省傘下の研究機関であり、科学研究の推進、最先端技術の開発と商業化を通じて、アブダビとUAEの経済発展に貢献することを目指しています。TIIは現在、74カ国から800名以上の研究専門家を擁し、700以上の論文と25以上の特許を発表しており、世界をリードする科学研究機関の1つです。
Falcon2のオープンソース化は、TIIによる技術共有へのコミットメントであると同時に、将来のAI開発への大胆な挑戦です。オープンソースのFalcon2は、計算資源の削減、持続可能性基準の遵守、柔軟性の向上をもたらし、エッジAIインフラストラクチャの新興トレンドに完璧に適合します。