語音轉文字功能上線— 現在也能聽懂了, 巴賽語

「語音轉文字」功能讓您說岀來的巴賽語，機器能轉成文字！

這一次，在 inkuei-basaytts.hf.space 加入了第三個分頁——語音轉文字（ASR）。上傳音檔或使用麥克風錄音，系統會自動將音聲轉錄為巴賽語正書法文字。

語音轉文字功能上線— 現在也能聽懂了, 巴賽語！

為什麼巴賽語 ASR 很難？

主流語音辨識服務（Google、OpenAI Whisper 等）的訓練資料幾乎不包含南島語系語言，遑論已消滅的巴賽語。直接送進 Whisper，輸出的要麼是亂碼，要麼是中文或英語的幻覺（hallucination）。

要讓機器「聽懂」巴賽語，需要解決兩個問題：

巴賽語目前沒有公開的人聲語料庫，因此反過來利用本計畫的 TTS 成果——以 eSpeak-NG 合成的巴賽語音檔作為訓練資料，對 OpenAI Whisper small 進行 fine-tuning。

用 TTS 生出來的聲音去訓練 ASR，再用 ASR 去辨識真實人聲——這在某種程度上是在跨越人造與真實之間的鴻溝。效果當然有限，但這是目前在幾乎沒有任何標注語料的情況下，唯一可行的路徑。

Whisper 的輸出往往有系統性偏差（例如把 q 讀成 k、把 j 讀成 y）。為此設計了以下管線，依序對轉錄結果補正：

自然語流的辨識精度還有進步空間——訓練資料全來自 TTS 合成聲音，與真實人聲之間存在音質落差。這是下一階段的課題。

inkuei-basaytts.hf.space 現在整合了三項功能：

語言復振的迴圈，在技術層面上，正在慢慢閉合。

本計畫所有程式碼已整合至 GitHub：

basay-tw/
├── hf-space-asr/   # 語音轉文字（Whisper fine-tuned + 後處理）
├── hf-space-tts/   # 文字轉語音・聲音複製・語音轉文字 統合 UI
└── dictionary/     # 3,000+ 語辭典

模型本體（.safetensors）因容量限制僅存放於 Hugging Face，程式碼在 GitHub 完整公開。

本計畫在完全沒有公共資助的情況下，以業餘時間推進。
eSpeak-NG 音聲定義、basay.tw 的建置、TTS・VC・ASR 三個 Space 的維運——全部使用免費或開源資源。

如果你覺得這個計畫有意義，最大的支持，就是把它分享出去。

立即試用

👉 inkuei-basaytts.hf.space — 點選「語音轉文字」分頁即可開始

Kisaizi a kawase a Basay — 大家一起說巴賽語。

本文採 CC BY-NC-SA 4.0 授權。
引用時請標明出處：basay.tw 研究筆記「語音轉文字功能讓您說岀來的巴賽語，機器能轉成文字！」（2026年6月29日）

本文採 CC BY-NC-SA 4.0 授權。引用時請標明出處：
basay.tw 研究筆記「語音轉文字功能上線— 現在也能聽懂了, 巴賽語」（2026年6月29日）