返回網誌
NVIDIA 推 0.6B 本地串流語音辨識模型 Nemotron 3.5 ASR 支援 40 種語言只要 CPU 就能運作
人工智能

NVIDIA 推 0.6B 本地串流語音辨識模型 Nemotron 3.5 ASR 支援 40 種語言只要 CPU 就能運作

作者:AI ECO編輯部2026年6月22日 03:31:08

全球語言翻譯

由 Google 翻譯提供 · Powered by Google Translate

NVIDIA NeMo 語音團隊推出全新 0.6B 參數模型 Nemotron 3.5 ASR,支援 40 種語言即時轉錄,無需 GPU 即可在 CPU 或 Apple Silicon 上運行,為本地開發者帶來開源新選擇。

NVIDIA 推 0.6B 本地串流語音辨識模型 Nemotron 3.5 ASR 支援 40 種語言只要 CPU 就能運作

NVIDIA NeMo 語音團隊於 6 月初在 HuggingFace 上架新模型 Nemotron 3.5 ASR。模型以 600M 參數涵蓋 40 種語言的即時語音轉錄,毋需 GPU 亦能在純 CPU 或 Apple Silicon 裝置上運作,為本地 AI 語音 pipeline 開發者提供開源選擇。

關鍵數據速覽:

  • 參數量:僅 600M (輕量級)
  • 支援語言:40 種 (單一模型)
  • 最低延遲:可調至 80ms
  • 平均詞錯率 (WER):7.07% (低於 Whisper)
  • 運行環境:純 CPU / Apple Silicon / GPU

多語言支援與架構優勢

Nemotron 3.5 ASR 是 NVIDIA 繼英文串流版本後推出的多語言擴充版。模型採用 Cache-Aware FastConformer-RNNT 架構,由 24 層 FastConformer 編碼器搭配 RNNT 解碼器組成。透過獨特的「語言 ID 提示」機制,單一模型即可處理 40 種語言,無需為每種語言準備獨立模型。

支援語言分為三個品質等級:即用型(19 種,含中、英、日、韓等)、廣泛覆蓋型(13 種歐洲語言)及適配型(8 種需微調語言)。開發者可透過 target_lang 指定語言,或設為 auto 讓模型自動偵測並輸出語言標籤。

Nemotron 3.5 ASR 模型架構示意

模型架構採用 FastConformer-RNNT,每個音訊幀只需處理一次,有效降低計算量與延遲,特別適合資源受限的邊緣設備。

與 Whisper 的實戰數據對比

根據 Microsoft Research 一項針對逾 50 個配置的大型基準測試,NVIDIA Nemotron 被評為「資源受限硬件上即時串流 ASR 最強候選模型」。

  • 準確率優勢:Nemotron 0.6B 平均詞錯率 (WER) 為 7.07%,優於 Whisper large-v3-turbo 的 7.83%。
  • 速度優勢:在 L40S GPU 上,Nemotron 延遲僅 43ms,較 Whisper medium 的 916ms 快達 21 倍
  • 延遲控制:開發者可透過 att_context_size 參數自由調整,從 80ms 超低延遲(即時互動)到 1,120ms 最高準確率模式。

內置實用功能與部署

除了基本語音轉文字,Nemotron 3.5 ASR 還內置了多項進階功能:

  • Word Boosting:可自訂優先辨識詞彙(如醫療、科技術語),無需重新訓練。
  • Speaker Diarization:自動區分不同說話者,適合會議記錄與播客製作。
  • 自動標點與大寫:輸出文字自帶標點與正確大寫,節省後處理時間。

模型以 OpenMDW-1.1 授權開源,權重已於 HuggingFace 上架,支援 NeMo 框架、OpenAI 相容 HTTP 伺服器及 NVIDIA NIM 雲端服務。即時語音平台 LiveKit 亦已發布整合指南,方便開發者接入即時語音 Agent pipeline。

資料來源:NVIDIA / HuggingFace

按此進入頁面閱讀原文

重要聲明

本文章屬 AI 中立思想內容,沒有引導意圖,僅供資訊與討論參考,內容不代表 AIECO.HK 立場。

查看條款及細則
標籤: #人工智能 #NVIDIA #Nemotron #語音辨識 #開源模型

分享或引用前請留意:本文為 AI 中立思想內容,沒有引導意圖,亦不代表 AIECO.HK 立場。

分享文章

留言區

留言每天檢視,請保持禮貌,尊重他人。

暫時未有留言,成為第一個留言吧!

發表留言

0 / 2000

1 + 8 = ?