Groq、Whisper Large-V3モデルをリリース、音声転写と翻訳を無料提供

AIbase

公開日AIニュース · 1 分で読めます · Jun 21, 2024

580

Groqは、最新のWhisper Large-V3モデルをリリースしました。ユーザーはPlaygroundまたはローカルプロジェクトでAPIを使用し、音声の書き起こしや翻訳機能を利用できます。このモデルは、複数の言語の書き起こしに対応しており、非常に高速な書き起こし速度を実現し、他の言語を英語に翻訳することもできます。

Playgroundリンク:https://console.groq.com/playground

現在、ユーザーはPlaygroundでこの機能を無料で体験できます。4分30秒のビデオの書き起こしは、わずか約3秒で完了します。GroqはAPIインターフェースも提供しており、ユーザーはローカルプロジェクトに統合して使用できます。

Whisper APIのインターフェース設計はOpenAIとの互換性基準に準拠しており、音声テキスト変換と音声翻訳という2つの主要機能へのアクセスを提供します。ユーザーはこれらの機能を自分のアプリケーションに簡単に統合でき、スマートアシスタントの開発から自動翻訳システムまで、便利な開発体験を得ることができます。

パフォーマンスに関して、Whisper APIは高度な「whisper-large-v3」モデルを採用しており、音声テキスト変換と翻訳タスクにおいて最高のパフォーマンスを実現しています。

さらに、APIはmp3、mp4、wavなど一般的なフォーマットを含むオーディオファイルのフォーマットとサイズを明確にサポートしていますが、ファイルサイズは25MB以下である必要があります。特に、複数の音声が含まれるファイルの場合、Whisper APIは最初の音声トラックのみを処理するため、アップロード前に適切なオーディオ前処理を行う必要があります。

書き起こしの品質と効率を向上させるため、Whisper APIはサーバー側でオーディオをダウンサンプリング処理し、16,000Hzのモノラルに減らします。Groqは、クライアント側でこの前処理ステップを完了することを推奨しています。これにより、ファイルサイズを削減できるだけでなく、より長いオーディオファイルのアップロードと処理が可能になります。

APIインターフェース:

音声テキスト変換:https://api.groq.com/openai/v1/audio/transcriptions

音声翻訳:https://api.groq.com/openai/v1/audio/translations

アップルのAIニュース要約機能が虚偽情報拡散で物議を醸す

アップル社が最近発表したAIニュース要約機能が、速報ニュースの要約において重大な誤りを繰り返し、ユーザーに大量の虚偽情報が伝わる事態を引き起こしている。この機能の発表以来、多くの報道機関やユーザーから、アップルの技術が未成熟であり、正確な情報を効果的に提供できないとして強い反発を受けている。ワシントンポスト紙のテクノロジーコラムニスト、ジェフリー・ファウラー氏がソーシャルメディアで、アップルのAIがニュース要約において事実を歪めたと投稿したと報じられている。

元Twitter幹部が開発したAIニュースアシスタントParticle：AIでニュース閲覧体験を刷新、1530万ドルの資金調達

現在のメディア業界がAIに対して慎重な姿勢をとる中、ParticleというAIニュース閲覧アプリがその状況を変えようとしています。元Twitterのエンジニアが開発したこのアプリは、ユーザーがニュースをより深く理解するのを支援するとともに、従来のメディア機関とのウィンウィン関係を模索しています。Particleは、元Twitterプロダクトマネジメント上級ディレクターのSara Beykpour氏と、元Twitterおよびテスラの上級エンジニアであるMarcel Molina氏によって共同設立されました。同社は、

日本のスーパー、AIで従業員の笑顔を監視　ネット上で「大げさだ」と批判の声

日本のイオン系のスーパーマーケットが、AIシステム「Smile-Kun」を使って従業員の笑顔を監視していることが明らかになった。従業員の笑顔や声の分析を通じて接客スキル向上を目指しているという。システムは特定のあいさつ方法を要求し、450個の微表情のポイントで100点満点で採点、リアルタイムでフィードバックする。さらに、音量や滑らかさ、トーンについても分析し、改善点を提案する。従業員の反応では笑顔の割合が大幅に増加したという。しかし、この取り組みは物議を醸しており、一部のネットユーザーからは従業員の個性や感情を過度に数値化しており、真心のこもったサービスとは程遠いとの批判が出ている。批判意見では、上下関係や

マイクロソフト研究所、AIフレームワークE5-Vを発表：テキストペアの単一モーダル学習でマルチモーダル学習を簡素化、コスト削減

マイクロソフト研究所と北京航空航天大学の研究チームは、マルチモーダル大規模言語モデル（MLM）開発における課題解決を目指し、高効率なマルチモーダル埋め込みフレームワークE5-Vを発表しました。この革新的なフレームワークは、単一モーダル学習によってマルチモーダル学習プロセスを簡素化し、従来のモデルに見られた独立したエンコーダーへの依存と、それに伴う入力統合の非効率性を克服します。E5-Vはテキストと画像情報を統合することでトレーニングコストを削減し、テキスト-画像検索、画像検索など、複数の複雑なタスクにおいて優れた性能を示しました。特にゼロショット学習において…

AIニュース