国際ニュース:AFPBB News
国際ニュース:AFPBB News

国際ニュース:AFPBB News

このニュースをシェア

FlashLabs、世界初となるリアルタイム音声対話モデル「Chroma 1.0」を公開 Hugging Face世界1位を獲得。わずか数秒のサンプルから「本人の声」を再現するオープンソースAI2026年1月23日FlashIntel Japan株式会社FlashIntel Japan株式会社(本社:東京都千代田区、代表取締役:細井 洋一)は、FlashLabsが1月16日、世界初となるオープンソースのエンドツーエンド・リアルタイム音声対話モデル「Chroma 1.0(クロマ)」を正式公開したことを発表いたします。Chroma1.0はAI開発のための世界最大級のオープンソースプラットフォームHugging Faceにてマルチモーダルカテゴリで1位を獲得(2026年1月22日時点)。Chroma公開のXの投稿は100万回表示を突破しています。 Chroma 1.0は、音声入力から音声出力まで約147ミリ秒の低遅延を実現し、数秒の参照音声から高精度な個別化音声生成を可能にします。コールセンターや営業の電話対応など、ビジネスの現場で人間に代わって対話するAIとしての活用が期待され、すでにFlashIntel Japan株式会社が提供するエンタープライズ向け音声エージェント基盤FlashAI 2.0上で実運用されています。クローズドAPIが主流であったリアルタイム音声AI分野において、Chroma 1.0は研究・開発・実装のすべてを開放した、初の実用レベルのオープンモデルとなります。   【画像:https://kyodonewsprwire.jp/img/202601222899-O1-Dl7pSZ5W】   【画像:https://kyodonewsprwire.jp/img/202601222899-O2-hwm6esi2】   背景:音声AIの遅延問題と個別化の課題 従来の音声AI システムは、音声認識(ASR)→テキスト処理(LLM)→音声合成(TTS)という多段階処理により、応答遅延が発生していました。また、話者の声質を保持したままリアルタイムで対話する技術は、計算コストと精度の両立が困難でした。コールセンターや顧客対応の現場では、自然な会話速度と個別対応が求められており、技術的なブレークスルーが必要とされていました。   【画像:https://kyodonewsprwire.jp/img/202601222899-O2-hwm6esi2】   Chroma 1.0とは:「声を声のまま理解するAI」 Chroma 1.0は、音声を音声のまま処理する「Speech-to-Speech(S2S)」設計を採用し、以下の特徴を備えた世界初のモデルです(当社調べ、2026年1月時点)。   世界初の特徴(当社調べ、2026年1月時点): ・オープンソース(コード・モデル重みを含む全公開) ・エンドツーエンド音声間処理(ASR→LLM→TTSを介さない) ・リアルタイム対話(200ミリ秒未満の応答) ・数秒の参照音声からの個別化音声クローニング   調査範囲: 主要オープンソースリポジトリ、論文データベース(arXiv等)、主要ベンダー公開情報(OpenAI Realtime API、Elevenlabs等)を対象に、上記4条件を同時に満たすモデルの有無を確認。   【画像:https://kyodonewsprwire.jp/img/202601222899-O2-hwm6esi2】   技術的特徴:性能データと計測条件 Chroma 1.0は、研究・管理環境下で以下の性能を示しました。 ◆ 低遅延リアルタイム応答 エンドツーエンドTTFT(Time To First Token):146.87ミリ秒 音声入力から最初の音声出力までの時間 測定条件:単一GPU環境、標準ネットワーク、平均3〜5秒の音声入力   ◆ 高速推論 RTF(Real-Time Factor):0.43 実時間の半分以下で処理完了(実時間の2倍以上の速度) 測定条件:同上   ◆ 高精度音声類似度 Speaker Similarity(話者類似度):0.817 人間ベースライン(0.73)比で +10.96% の向上 評価指標:客観的話者類似度評価 数秒の参照音声から高精度な個別化音声を生成   ◆ 軽量・高効率設計 パラメータ数:約40億(4B) Qwen2.5-Omni-3B、Llama 3クラスに匹敵する対話性能 ストリーミング生成に対応し、連続的な音声出力を実現   ◆ インターリーブ設計 テキスト-音声トークンスケジュール(1:2) テキストと音声を同期生成し、自然なターンテイキング(会話の交代)を実現   【画像:https://kyodonewsprwire.jp/img/202601222899-O2-hwm6esi2】   想定ユースケース Chroma 1.0は、以下の分野での活用を想定しています。   1. コールセンター・カスタマーサポート 音声応答の待ち時間を短縮し、自然な会話フローを実現。顧客ごとに最適化された音声で対応することで、満足度向上とオペレーター負荷軽減を両立。   2. 営業・インサイドセールス リアルタイム音声エージェントが初期対応を担当し、商談機会の取りこぼしを削減。人間らしい声での見込み顧客との自然な対話で、人的リソースを高付加価値業務にシフト。   3. 予約・問い合わせ対応 24時間365日、遅延のない音声対応を提供。飲食店、医療機関、公共施設等での無人受付や多言語対応に活用可能。   4. 音声ネイティブなマルチモーダルAIアプリケーション 音声インターフェースを核とした新サービスの構築。教育、エンターテインメント、アクセシビリティ支援等、多様な領域での応用が期待される。   5. 音声アシスタント・バーチャルヒューマン 個別化された音声で対話するAIキャラクターやアバター。ゲーム、メタバース、パーソナルアシスタント等での利用を見込む。   FlashLabsが提供している電話対応AIエージェントFlashAI上でも実装され、大手システム提供会社を含めた同サービス利用者にも順次公開されます。   【画像:https://kyodonewsprwire.jp/img/202601222899-O2-hwm6esi2】   オープンソース公開内容: Chroma 1.0は、研究・開発・実装のすべてを公開しています。   ◆ 公開内容 モデルウェイト(Hugging Face) https://huggingface.co/FlashLabs/Chroma-4B ソースコード(GitHub) https://github.com/FlashLabs-AI-Corp/FlashLabs-Chroma 技術論文(arXiv) https://arxiv.org/abs/2601.11141   ◆ ライセンス Apache License 2.0 商用利用、改変、再配布が可能。研究機関・企業・個人開発者が自由に活用できます。   ◆ 動作環境 GPU推奨(NVIDIA A100、H100等) transformersライブラリ最新版 PyTorch最新版   【画像:https://kyodonewsprwire.jp/img/202601222899-O2-hwm6esi2】   デモと検証 ◆ デモ動画 リアルタイム対話と個別化音声生成の実際の動作を確認できます。https://www.youtube.com/watch?v=AOMmxTwsam0   ◆ 技術レポート 測定方法、ベンチマーク詳細、アーキテクチャ解説を論文で公開。再現手順も含め、第三者による検証が可能です。   ◆ ベンチマーク結果 主要な音声理解・推論・対話タスクにおいて、同クラスのモデルと競合する性能を確認。詳細は論文のTable 5を参照。   【画像:https://kyodonewsprwire.jp/img/202601222899-O2-hwm6esi2】   コメント FlashLabs 創業者兼Global CEO 石 一(Yi Shi) は次のように述べています。 「リアルタイム音声AIは、クローズドであるべきではありません。Chroma 1.0は、音声AIを"開かれた知能"として次の段階へ進めるための第一歩です。従来の多段階処理では、遅延、誤り伝播、副言語情報の損失が避けられませんでした。エンドツーエンド設計により、これらの課題を根本から解決しました。開発者コミュニティとともに、音声AIの民主化を推進します。」   【画像:https://kyodonewsprwire.jp/img/202601222899-O2-hwm6esi2】   FlashIntel Japan株式会社について FlashIntel Japan株式会社は、次世代AIエージェントおよび音声AI基盤の研究・開発・提供を行うAI企業です。営業AI基盤システムFlashRev、電話AIエージェントFlashAIをはじめ、に日本市場における生産性革新を推進しています。 会社名: FlashIntel Japan株式会社代表者: 代表取締役 細井 洋一所在地: 東京都千代田区事業内容: AIエージェント基盤、リアルタイム音声AI、企業向けAIソリューションの研究開発・提供ウェブサイト: https://www.flashlabs.ai/   【画像:https://kyodonewsprwire.jp/img/202601222899-O2-hwm6esi2】   報道関係お問い合わせ先 FlashIntel Japan株式会社電話: 03-6869-2514担当: 広報担当   提供:共同通信PRワイヤー プレスリリース 一覧へ>
📎📎📎📎📎📎📎📎📎📎
BOT