讓巴賽語,用你的聲音說話

巴賽語語音合成(basaytts)自上線以來, 一直是以 eSpeak-NG 自製音聲定義合成發音——聽起來是機器人的聲音。 這次更新加入了「聲音複製(Voice Clone)」功能: 只要上傳一小段你自己的巴賽語,就能讓機器人用你的音色說話。

語言復振不只是記錄音韻,更是讓活生生的人再次開口說話。 希望這個功能能讓巴賽語更靠近每一個想學習、想傳承它的人。


技術原理:兩階段合成

整個流程分為兩個步驟:

**① 巴賽語表記** eSpeak-NG(basay.tw 自製音聲定義) 發音正確的機器人聲
↓ + 參考聲音(你的聲音)
**② eSpeak 音檔 + 參考聲音** seed-vc 音色轉換 你的音色 × 正確發音
**③ 輸出音檔** 下載或直接播放

核心模型使用 seed-vc(v1), 這是一個零樣本(zero-shot)音色轉換模型。 只需短短幾秒的參考聲音,便能提取說話者的音色特徵, 套用到任意語音內容上。授權為 Apache 2.0,可商業使用。

第一步的 eSpeak-NG 確保巴賽語的音韻系統絕對正確; 第二步的 seed-vc 則把這個正確發音「穿上」你的聲音。 兩步分工,各司其職。


使用方式

步驟 1 ⸺ 上傳聲音樣本

inkuei-basaytts.hf.space 點選「聲音複製」分頁,上傳一段你的聲音(3–30 秒最佳)。 支援 m4a、mp3、wav、caf 等格式——iPhone 或 Mac 直接錄音的檔案可以直接上傳。 上傳後務必按下「▶ 轉換並套用聲音樣本(必按)」按鈕。

🔒 **隱私保護**:伺服器不保存您的聲音樣本。 離開此網頁後即消失,下次使用時必須重新上傳。

步驟 2 ⸺ 輸入巴賽語文字

在文字框輸入巴賽語表記(上限 100 字),按「複製生成」。 正書法規則與「語音合成」分頁相同(n's'l'z'o')。

等待生成

伺服器目前使用 CPU 運算,每次生成約需 1–2 分鐘,請稍候。 生成完畢後可直接播放,或下載為 WAV 檔案。


提升效果的小訣竅

  • 聲音樣本越清晰、越接近朗讀語氣,效果越好。
  • 背景噪音過多,或極短(3 秒以下)的樣本,效果較差。
  • 長文請分段輸入(每段上限 100 字)。
  • Diffusion steps 預設為 5(快速),可調至 10 以上尋求更自然的音色, 但生成時間會成比例增加。

背景:沒有公共資助的語言復振

本計畫是在完全沒有公共資助的情況下,以一己之力推進的巴賽語復振工作。 eSpeak-NG 的自製音聲定義、basay.tw 的建置、語音合成 Space 的維運, 全部都在業餘時間完成,並且使用免費或開源資源。

聲音複製功能也是如此—— seed-vc 模型、Hugging Face 免費空間、CPU 推論, 盡量在不花費的前提下實現。 如果你覺得這個工具有幫助,歡迎分享給對巴賽語有興趣的朋友。


立即試用

👉 https://inkuei-basaytts.hf.space/ — 點選「聲音複製」分頁即可開始。

如有問題或建議,歡迎透過 聯絡頁面 反映。 Kisaizi a kawase a Basay — 大家一起說巴賽語。