最近、マイクロソフトが発表した最新のビジュアル基礎モデルFlorence-2が大きな進歩を遂げました。Transformers.js技術を活用することで、WebGPUに対応したブラウザ上で100%ローカル実行できるようになりました。この画期的な進歩により、AIビジュアルアプリケーションに革命的な変化がもたらされ、強力なビジュアル認識機能をリモートサーバーに依存することなく、ユーザーのブラウザ上で直接実現できるようになりました。
Florence-2-base-ftは、2.3億個のパラメータを持つビジュアル基礎モデルであり、プロンプトベースの方法を使用して幅広いビジュアルおよびビジュアル言語タスクを処理します。このモデルは、以下の機能をサポートしています(これらに限定されません)。
- 画像キャプション生成
- 光学文字認識(OCR)
- 物体検出
- 画像セグメンテーション
この強力なモデルはわずか340MBのストレージしか使用しません。一度ロードされるとブラウザにキャッシュされ、ユーザーがページに再度アクセスした際に再ダウンロードすることなく呼び出すことができます。最も驚くべき点は、このプロセス全体がユーザーのブラウザ上でローカルに行われ、サーバーにAPI呼び出しを送信する必要がないことです。つまり、モデルのロード後、インターネット接続が切断されても、ユーザーはすべての機能を引き続き使用できます。
Florence-2のローカル実行は、🤗 Transformers.jsとONNX Runtime Web技術によって実現されました。この画期的な進歩は、ユーザーのプライバシー保護レベルを高めるだけでなく、使用コストの大幅な削減にもつながり、AIビジュアル技術の普及に道を拓きます。
開発者や技術愛好家の皆様にとって、Florence-2のONNXモデルはHugging Faceプラットフォームで公開されています。詳細については、https://huggingface.co/models?library=transformers.js&other=florence2をご覧ください。また、プロジェクトのソースコードもGitHubで公開されており、https://github.com/xenova/transformers.js/tree/v3/examples/florence2-webgpuから取得して、さらなる調査や開発を行うことができます。
Florence-2のこの進歩は、AIビジュアルアプリケーションの急速な発展と普及を間違いなく促進するでしょう。近い将来、ブラウザベースのより多くのインテリジェントなビジュアルアプリケーションが私たちの日常生活や働き方を変えることを期待できます。