「語音轉文字」功能讓您說岀來的巴賽語,機器能轉成文字!
這一次,在 inkuei-basaytts.hf.space 加入了第三個分頁——語音轉文字(ASR)。上傳音檔或使用麥克風錄音,系統會自動將音聲轉錄為巴賽語正書法文字。

為什麼巴賽語 ASR 很難?
主流語音辨識服務(Google、OpenAI Whisper 等)的訓練資料幾乎不包含南島語系語言,遑論已消滅的巴賽語。直接送進 Whisper,輸出的要麼是亂碼,要麼是中文或英語的幻覺(hallucination)。
要讓機器「聽懂」巴賽語,需要解決兩個問題:
- 聲學模型:讓模型認識巴賽語的語音
- 後處理:把模型輸出的近似音序,還原為正確的巴賽語正書法
解法:Fine-tuning + 辭典後處理管線
🎙️ 聲學模型:用 TTS 音源訓練 Whisper
巴賽語目前沒有公開的人聲語料庫,因此反過來利用本計畫的 TTS 成果——以 eSpeak-NG 合成的巴賽語音檔作為訓練資料,對 OpenAI Whisper small 進行 fine-tuning。
用 TTS 生出來的聲音去訓練 ASR,再用 ASR 去辨識真實人聲——這在某種程度上是在跨越人造與真實之間的鴻溝。效果當然有限,但這是目前在幾乎沒有任何標注語料的情況下,唯一可行的路徑。
🔧 後處理管線:八道補正
Whisper 的輸出往往有系統性偏差(例如把 q 讀成 k、把 j 讀成 y)。為此設計了以下管線,依序對轉錄結果補正:
- UI 補正規則(可在「進階設定」自訂)
- 音素補正:修正 fine-tuning 模型固有的系統性誤認
- 人称代名詞焦点等語素分離:
- 形態素再結合:過度切分的 token 依辭典照合後重新合併
- 語境界回復:融合 token 以最大匹配切分
- 辭典補正(cutoff 0.88):各 token 對齊至最近鄰辭典項目
- 辭典查詢:輸出繁體中文・日文・英文對照語義
- 音節邊界解析:以 CV / CVC 形式標示音節結構
現在能做到什麼
| 功能 | 狀態 |
|---|---|
| 巴賽語音檔 → 正書法文字 | ✅ |
| 辭典語義對照(繁中・日・英) | ✅ |
| 音節邊界解析 | ✅ |
| 補正規則自訂(進階設定) | ✅ |
| 多語言混合輸入(繁中 + 巴賽語) | ✅ |
| 歷史音源的高精度辨識 | 🔄 持續改善中 |
自然語流的辨識精度還有進步空間——訓練資料全來自 TTS 合成聲音,與真實人聲之間存在音質落差。這是下一階段的課題。
三個工具,現在在同一個地方
inkuei-basaytts.hf.space 現在整合了三項功能:
- 文字轉語音 — 輸入巴賽語正書法,即時合成音聲
- 聲音複製 — 用你自己的音色說出巴賽語(seed-vc)
- 語音轉文字 — 說出巴賽語,轉錄為正書法文字
語言復振的迴圈,在技術層面上,正在慢慢閉合。
原始碼公開
本計畫所有程式碼已整合至 GitHub:
👉 github.com/ctotsai-hub/basay-tw
basay-tw/
├── hf-space-asr/ # 語音轉文字(Whisper fine-tuned + 後處理)
├── hf-space-tts/ # 文字轉語音・聲音複製・語音轉文字 統合 UI
└── dictionary/ # 3,000+ 語辭典
模型本體(.safetensors)因容量限制僅存放於 Hugging Face,程式碼在 GitHub 完整公開。
背景:一個人的語言復振
本計畫在完全沒有公共資助的情況下,以業餘時間推進。
eSpeak-NG 音聲定義、basay.tw 的建置、TTS・VC・ASR 三個 Space 的維運——全部使用免費或開源資源。
如果你覺得這個計畫有意義,最大的支持,就是把它分享出去。
立即試用
👉 inkuei-basaytts.hf.space — 點選「語音轉文字」分頁即可開始
Kisaizi a kawase a Basay — 大家一起說巴賽語。
本文採 CC BY-NC-SA 4.0 授權。
引用時請標明出處:basay.tw 研究筆記「語音轉文字功能讓您說岀來的巴賽語,機器能轉成文字!」(2026年6月29日)