<匯港通訊> 小米集團(01810)AI實驗室宣布,旗下Kaldi團隊發布基於Flow Matching架構的ZipVoice系列語音合成(TTS)模型,包括ZipVoice(零樣本單說話人語音合成模型)及ZipVoice-Dialog(零樣本對話語音合成模型)。
據介紹,作為zipformer在語音生成任務上的應用和探索,ZipVoice解決了現有零樣本語音合成模型的參數量大、合成速度慢的痛點,在輕量化建模和推理加速上取得了重要突破。
ZipVoice-Dialog則解決現有對話語音合成模型在穩定性和推理速度上的瓶頸,實現又快又穩又自然的語音對話合成。
此外,小米表示,未來團隊將持續對ZipVoice系列模型進行優化,致力於讓每一個人都能享受到低成本高質量的語音合成技術。 (JJ)
新聞來源 (不包括新聞圖片): 滙港資訊