讓巴賽語,用你的聲音說話
巴賽語語音合成(basaytts)自上線以來, 一直是以 eSpeak-NG 自製音聲定義合成發音——聽起來是機器人的聲音。 這次更新加入了「聲音複製(Voice Clone)」功能: 只要上傳一小段你自己的巴賽語,就能讓機器人用你的音色說話。
語言復振不只是記錄音韻,更是讓活生生的人再次開口說話。 希望這個功能能讓巴賽語更靠近每一個想學習、想傳承它的人。
技術原理:兩階段合成
整個流程分為兩個步驟:
核心模型使用 seed-vc(v1), 這是一個零樣本(zero-shot)音色轉換模型。 只需短短幾秒的參考聲音,便能提取說話者的音色特徵, 套用到任意語音內容上。授權為 Apache 2.0,可商業使用。
第一步的 eSpeak-NG 確保巴賽語的音韻系統絕對正確; 第二步的 seed-vc 則把這個正確發音「穿上」你的聲音。 兩步分工,各司其職。
使用方式
步驟 1 ⸺ 上傳聲音樣本
在 inkuei-basaytts.hf.space 點選「聲音複製」分頁,上傳一段你的聲音(3–30 秒最佳)。 支援 m4a、mp3、wav、caf 等格式——iPhone 或 Mac 直接錄音的檔案可以直接上傳。 上傳後務必按下「▶ 轉換並套用聲音樣本(必按)」按鈕。
步驟 2 ⸺ 輸入巴賽語文字
在文字框輸入巴賽語表記(上限 100 字),按「複製生成」。
正書法規則與「語音合成」分頁相同(n'、s'、l'、z'、o')。
等待生成
伺服器目前使用 CPU 運算,每次生成約需 1–2 分鐘,請稍候。 生成完畢後可直接播放,或下載為 WAV 檔案。
提升效果的小訣竅
- 聲音樣本越清晰、越接近朗讀語氣,效果越好。
- 背景噪音過多,或極短(3 秒以下)的樣本,效果較差。
- 長文請分段輸入(每段上限 100 字)。
- Diffusion steps 預設為 5(快速),可調至 10 以上尋求更自然的音色, 但生成時間會成比例增加。
背景:沒有公共資助的語言復振
本計畫是在完全沒有公共資助的情況下,以一己之力推進的巴賽語復振工作。 eSpeak-NG 的自製音聲定義、basay.tw 的建置、語音合成 Space 的維運, 全部都在業餘時間完成,並且使用免費或開源資源。
聲音複製功能也是如此—— seed-vc 模型、Hugging Face 免費空間、CPU 推論, 盡量在不花費的前提下實現。 如果你覺得這個工具有幫助,歡迎分享給對巴賽語有興趣的朋友。
立即試用
👉 https://inkuei-basaytts.hf.space/ — 點選「聲音複製」分頁即可開始。
如有問題或建議,歡迎透過 聯絡頁面 反映。 Kisaizi a kawase a Basay — 大家一起說巴賽語。