NVIDIA 推 0.6B 本地串流語音辨識模型 Nemotron 3.5 ASR 支援 40 種語言只要 CPU 就能運作

NVIDIA NeMo 語音團隊於 6 月初在 HuggingFace 上架新模型 Nemotron 3.5 ASR。模型以 600M 參數涵蓋 40 種語言的即時語音轉錄，毋需 GPU 亦能在純 CPU 或 Apple Silicon 裝置上運作，為本地 AI 語音 pipeline 開發者提供開源選擇。

關鍵數據速覽：

參數量：僅 600M (輕量級)
支援語言：40 種 (單一模型)
最低延遲：可調至 80ms
平均詞錯率 (WER)：7.07% (低於 Whisper)
運行環境：純 CPU / Apple Silicon / GPU

多語言支援與架構優勢

Nemotron 3.5 ASR 是 NVIDIA 繼英文串流版本後推出的多語言擴充版。模型採用 Cache-Aware FastConformer-RNNT 架構，由 24 層 FastConformer 編碼器搭配 RNNT 解碼器組成。透過獨特的「語言 ID 提示」機制，單一模型即可處理 40 種語言，無需為每種語言準備獨立模型。

支援語言分為三個品質等級：即用型（19 種，含中、英、日、韓等）、廣泛覆蓋型（13 種歐洲語言）及適配型（8 種需微調語言）。開發者可透過 target_lang 指定語言，或設為 auto 讓模型自動偵測並輸出語言標籤。

模型架構採用 FastConformer-RNNT，每個音訊幀只需處理一次，有效降低計算量與延遲，特別適合資源受限的邊緣設備。

與 Whisper 的實戰數據對比

根據 Microsoft Research 一項針對逾 50 個配置的大型基準測試，NVIDIA Nemotron 被評為「資源受限硬件上即時串流 ASR 最強候選模型」。

準確率優勢：Nemotron 0.6B 平均詞錯率 (WER) 為 7.07%，優於 Whisper large-v3-turbo 的 7.83%。
速度優勢：在 L40S GPU 上，Nemotron 延遲僅 43ms，較 Whisper medium 的 916ms 快達 21 倍。
延遲控制：開發者可透過 att_context_size 參數自由調整，從 80ms 超低延遲（即時互動）到 1,120ms 最高準確率模式。

內置實用功能與部署

除了基本語音轉文字，Nemotron 3.5 ASR 還內置了多項進階功能：

Word Boosting：可自訂優先辨識詞彙（如醫療、科技術語），無需重新訓練。
Speaker Diarization：自動區分不同說話者，適合會議記錄與播客製作。
自動標點與大寫：輸出文字自帶標點與正確大寫，節省後處理時間。

模型以 OpenMDW-1.1 授權開源，權重已於 HuggingFace 上架，支援 NeMo 框架、OpenAI 相容 HTTP 伺服器及 NVIDIA NIM 雲端服務。即時語音平台 LiveKit 亦已發布整合指南，方便開發者接入即時語音 Agent pipeline。

資料來源：NVIDIA / HuggingFace

按此進入頁面閱讀原文

NVIDIA 推 0.6B 本地串流語音辨識模型 Nemotron 3.5 ASR 支援 40 種語言只要 CPU 就能運作

全球語言翻譯

NVIDIA 推 0.6B 本地串流語音辨識模型 Nemotron 3.5 ASR 支援 40 種語言只要 CPU 就能運作

多語言支援與架構優勢

與 Whisper 的實戰數據對比

內置實用功能與部署

分享文章

留言區

發表留言

相關文章

諾獎得主Jumper跳槽Anthropic 離職恐拖慢Google AI發展蛋白質預測技術再掀業界關注

[勞動尊嚴與社會秩序] 港珠澳大橋關員遇襲男子不滿被截查拳打海關被捕，讓我反思在自動化時代，人類守護規則的勇氣與尊嚴更顯珍貴。

黎巴嫩泰爾戰火後紀念穆哈蘭月婦人悼亡兒稱願再獻身社區重建盼停火

NVIDIA 推 0.6B 本地串流語音辨識模型 Nemotron 3.5 ASR 支援 40 種語言只要 CPU 就能運作

全球語言翻譯

NVIDIA 推 0.6B 本地串流語音辨識模型 Nemotron 3.5 ASR 支援 40 種語言只要 CPU 就能運作

多語言支援與架構優勢

與 Whisper 的實戰數據對比

內置實用功能與部署

分享文章

留言區

發表留言

相關文章

諾獎得主Jumper跳槽Anthropic 離職恐拖慢Google AI發展 蛋白質預測技術再掀業界關注

[勞動尊嚴與社會秩序] 港珠澳大橋關員遇襲 男子不滿被截查拳打海關被捕，讓我反思在自動化時代，人類守護規則的勇氣與尊嚴更顯珍貴。

黎巴嫩泰爾戰火後紀念穆哈蘭月 婦人悼亡兒稱願再獻身 社區重建盼停火

諾獎得主Jumper跳槽Anthropic 離職恐拖慢Google AI發展蛋白質預測技術再掀業界關注

[勞動尊嚴與社會秩序] 港珠澳大橋關員遇襲男子不滿被截查拳打海關被捕，讓我反思在自動化時代，人類守護規則的勇氣與尊嚴更顯珍貴。

黎巴嫩泰爾戰火後紀念穆哈蘭月婦人悼亡兒稱願再獻身社區重建盼停火