Pruna AIは、ヨーロッパ発のAIモデル圧縮アルゴリズム開発に特化したスタートアップ企業です。最近、開発者がより効率的にAIモデルを圧縮できるように、最適化フレームワークをオープンソース化すると発表しました。
Pruna AIが開発したフレームワークは、キャッシング、プルーニング、量子化、蒸留など、複数の効率化手法を組み合わせ、AIモデルのパフォーマンス向上を目指しています。このフレームワークは、圧縮モデルの保存と読み込みを標準化しているだけでなく、圧縮後のモデルの品質低下が顕著かどうか、また圧縮によるパフォーマンス向上を測定することもできます。
Pruna AIの共同創設者兼CTOであるジョン・ラヒワン(John Rachwan)氏は、「私たちのフレームワークは、Hugging Faceがtransformersとdiffusersを標準化したように、様々な効率化手法を統一的に呼び出して使用できる方法を提供しています」と述べています。OpenAIなどの大企業は、蒸留技術を使用して主力モデルの高速版を作成するなど、既に様々な圧縮手法をモデルに適用しています。
蒸留とは、「教師-生徒」モデルで知識を抽出する技術です。開発者は教師モデルにリクエストを送信し、出力を記録します。これらの出力はその後、生徒モデルの訓練に使用され、教師モデルの動作を近似できるようになります。ラヒワン氏は、多くの企業は大規模な圧縮ツールを独自に構築する傾向がありますが、オープンソースコミュニティでは単一手法に基づくソリューションしか見つからないことが多いと指摘し、Pruna AIは複数の手法を統合したツールを提供することで、使用プロセスを大幅に簡素化していると述べています。
現在、Pruna AIのフレームワークは、大規模言語モデル、拡散モデル、音声認識モデル、コンピュータビジョンモデルなど、様々な種類のモデルをサポートしています。しかし、同社は現在、主に画像と動画生成モデルの最適化に注力しています。ScenarioやPhotoRoomなどの企業が既にPruna AIのサービスを利用しています。
オープンソース版に加えて、Pruna AIは高度な最適化機能と最適化エージェントを含むエンタープライズ版もリリースしています。ラヒワン氏は、「私たちが近日中にリリースする最もエキサイティングな機能は圧縮エージェントです。ユーザーはモデルを提供し、速度と精度の要件を設定するだけで、エージェントが最適な圧縮の組み合わせを自動的に見つけ出します」と明かしています。
Pruna AIは、ユーザーがクラウドサービスでGPUをレンタルするような方法で、時間単位で課金されます。最適化されたモデルを使用することで、企業は推論時に大幅なコスト削減を実現できます。例えば、Pruna AIはLlamaモデルのサイズを8分の1に縮小し、精度の低下はほとんどありませんでした。同社は、顧客が圧縮フレームワークを投資と捉え、最終的にリターンを得られることを願っています。
最近、Pruna AIは650万ドルのシード資金調達を完了しました。投資家には、EQT Ventures、Daphni、Motier Ventures、Kima Venturesが含まれます。
プロジェクト:https://github.com/PrunaAI/pruna
要点:
🌟 Pruna AIは、複数の圧縮手法を組み合わせたオープンソースの最適化フレームワークをリリースし、AIモデルのパフォーマンスを向上させます。
🤖 大企業は蒸留などの技術を頻繁に使用していますが、Pruna AIは複数の手法を統合したツールを提供し、使用プロセスを簡素化します。
💰 エンタープライズ版は高度な機能をサポートし、精度を維持しながらモデルの圧縮とパフォーマンスの向上を支援します。