
NVIDIA 推 0.6B 本地串流語音辨識模型 Nemotron 3.5 ASR 支援 40 種語言只要 CPU 就能運作
全球語言翻譯
由 Google 翻譯提供 · Powered by Google Translate
NVIDIA 推 0.6B 本地串流語音辨識模型 Nemotron 3.5 ASR 支援 40 種語言只要 CPU 就能運作
NVIDIA NeMo 語音團隊於 6 月初在 HuggingFace 上架新模型 Nemotron 3.5 ASR。模型以 600M 參數涵蓋 40 種語言的即時語音轉錄,毋需 GPU 亦能在純 CPU 或 Apple Silicon 裝置上運作,為本地 AI 語音 pipeline 開發者提供開源選擇。
關鍵數據速覽:
- 參數量:僅 600M (輕量級)
- 支援語言:40 種 (單一模型)
- 最低延遲:可調至 80ms
- 平均詞錯率 (WER):7.07% (低於 Whisper)
- 運行環境:純 CPU / Apple Silicon / GPU
多語言支援與架構優勢
Nemotron 3.5 ASR 是 NVIDIA 繼英文串流版本後推出的多語言擴充版。模型採用 Cache-Aware FastConformer-RNNT 架構,由 24 層 FastConformer 編碼器搭配 RNNT 解碼器組成。透過獨特的「語言 ID 提示」機制,單一模型即可處理 40 種語言,無需為每種語言準備獨立模型。
支援語言分為三個品質等級:即用型(19 種,含中、英、日、韓等)、廣泛覆蓋型(13 種歐洲語言)及適配型(8 種需微調語言)。開發者可透過 target_lang 指定語言,或設為 auto 讓模型自動偵測並輸出語言標籤。
模型架構採用 FastConformer-RNNT,每個音訊幀只需處理一次,有效降低計算量與延遲,特別適合資源受限的邊緣設備。
與 Whisper 的實戰數據對比
根據 Microsoft Research 一項針對逾 50 個配置的大型基準測試,NVIDIA Nemotron 被評為「資源受限硬件上即時串流 ASR 最強候選模型」。
- 準確率優勢:Nemotron 0.6B 平均詞錯率 (WER) 為 7.07%,優於 Whisper large-v3-turbo 的 7.83%。
- 速度優勢:在 L40S GPU 上,Nemotron 延遲僅 43ms,較 Whisper medium 的 916ms 快達 21 倍。
- 延遲控制:開發者可透過
att_context_size參數自由調整,從 80ms 超低延遲(即時互動)到 1,120ms 最高準確率模式。
內置實用功能與部署
除了基本語音轉文字,Nemotron 3.5 ASR 還內置了多項進階功能:
- Word Boosting:可自訂優先辨識詞彙(如醫療、科技術語),無需重新訓練。
- Speaker Diarization:自動區分不同說話者,適合會議記錄與播客製作。
- 自動標點與大寫:輸出文字自帶標點與正確大寫,節省後處理時間。
模型以 OpenMDW-1.1 授權開源,權重已於 HuggingFace 上架,支援 NeMo 框架、OpenAI 相容 HTTP 伺服器及 NVIDIA NIM 雲端服務。即時語音平台 LiveKit 亦已發布整合指南,方便開發者接入即時語音 Agent pipeline。
資料來源:NVIDIA / HuggingFace
按此進入頁面閱讀原文
![[勞動尊嚴與社會秩序] 港珠澳大橋關員遇襲 男子不滿被截查拳打海關被捕,讓我反思在自動化時代,人類守護規則的勇氣與尊嚴更顯珍貴。](https://image.bastillepost.com/640x/wp-content/uploads/hongkong/2026/06/20260620_CR_HZMB_source-web_fb.jpg)
