AI製品ランキング

AI製品ランキング

グローバルAI製品の動向を検索

グローバルAI情報を検索して、AIの新しい機会を発見

ニュース
製品アプリケーション
マネタイズ事例
AIチュートリアル

タイプ :

ニュース
製品アプリケーション
マネタイズ事例
AIチュートリアル

2025-03-03 09:25:09.AIbase

オープンソースOCRツールolmOCR：PDFをテキストへ高効率変換、表と手書き文字も認識

オープンソースOCRツールolmOCR：PDFをテキストへ高効率変換、表と手書き文字も認識

2024-10-15 10:28:31.AIbase

OCR 2.0モデル登場！グラフ、幾何学図形、楽譜も編集可能なテキストに変換

最近、研究者らが、GOT（汎用OCR理論）と呼ばれる新しい汎用光学文字認識（OCR）モデルを開発しました。彼らの論文では、「OCR2.0」という概念が初めて提案されており、この新しいモデルは、従来のOCRシステムの長所と大規模言語モデルの強力な機能を組み合わせることを目指しています。GOTのアーキテクチャは非常に高度で、約8000万パラメータの画像エンコーダと500万パラメータのデコーダが含まれています。画像エンコーダは、1024x1024ピクセルの画像を処理できます。

OCR 2.0モデル登場！グラフ、幾何学図形、楽譜も編集可能なテキストに変換

2024-10-14 10:06:17.AIbase

OCR 2.0モデル：ワンクリックでテキスト、数式、グラフ画像を編集可能なテキストに変換

デジタル時代において、画像内のテキストコンテンツを迅速に編集可能なテキストに変換することは、一般的で重要なニーズです。今回、GOT（汎用光学文字認識理論）と呼ばれる新しい光学文字認識（OCR）モデルが登場し、OCR技術は2.0時代に入りました。この革新的なモデルは、従来のOCRシステムと大規模言語モデルの長所を組み合わせ、より効率的でインテリジェントなテキスト認識ツールを目指しています。GOTモデルは、革新的なエンドツーエンドアーキテクチャを採用しており、これはリソースの節約だけでなく、大幅な効率化にもつながります。

2024-08-21 14:20:32.AIbase

複雑なビジュアル推論向け！Microsoftが軽量マルチモーダルオープンソースモデルPhi-3.5-visionを発表

Microsoftは、テキストとビジュアル入力を処理するように設計された、軽量でマルチモーダルなオープンソースAIモデルであるPhi-3.5-visionを発表しました。128Kコンテキスト長をサポートし、リソースの少ない環境に適しています。画像理解、OCR、グラフ解析、複数画像のサマリーなどの機能を備え、優れたパフォーマンスと低遅延を実現します。42億パラメーターで構成され、高品質なデータでトレーニングされているため、パフォーマンスとプライバシーが確保されています。軽量AI、エキスパートミックス、マルチモーダルモデルの3つのモデルが含まれており、いずれも画像とビデオ処理のベンチマークテストで優れた結果を示しています。

複雑なビジュアル推論向け！Microsoftが軽量マルチモーダルオープンソースモデルPhi-3.5-visionを発表