「語音轉文字」功能讓您說岀來的巴賽語,機器能轉成文字!

這一次,在 inkuei-basaytts.hf.space 加入了第三個分頁——語音轉文字(ASR)。上傳音檔或使用麥克風錄音,系統會自動將音聲轉錄為巴賽語正書法文字。

語音轉文字功能上線— 現在也能聽懂了, 巴賽語!


為什麼巴賽語 ASR 很難?

主流語音辨識服務(Google、OpenAI Whisper 等)的訓練資料幾乎不包含南島語系語言,遑論已消滅的巴賽語。直接送進 Whisper,輸出的要麼是亂碼,要麼是中文或英語的幻覺(hallucination)。

要讓機器「聽懂」巴賽語,需要解決兩個問題:

  1. 聲學模型:讓模型認識巴賽語的語音
  2. 後處理:把模型輸出的近似音序,還原為正確的巴賽語正書法

解法:Fine-tuning + 辭典後處理管線

🎙️ 聲學模型:用 TTS 音源訓練 Whisper

巴賽語目前沒有公開的人聲語料庫,因此反過來利用本計畫的 TTS 成果——以 eSpeak-NG 合成的巴賽語音檔作為訓練資料,對 OpenAI Whisper small 進行 fine-tuning。

用 TTS 生出來的聲音去訓練 ASR,再用 ASR 去辨識真實人聲——這在某種程度上是在跨越人造與真實之間的鴻溝。效果當然有限,但這是目前在幾乎沒有任何標注語料的情況下,唯一可行的路徑。

🔧 後處理管線:八道補正

Whisper 的輸出往往有系統性偏差(例如把 q 讀成 k、把 j 讀成 y)。為此設計了以下管線,依序對轉錄結果補正:

  1. UI 補正規則(可在「進階設定」自訂)
  2. 音素補正:修正 fine-tuning 模型固有的系統性誤認
  3. 人称代名詞焦点等語素分離
  4. 形態素再結合:過度切分的 token 依辭典照合後重新合併
  5. 語境界回復:融合 token 以最大匹配切分
  6. 辭典補正(cutoff 0.88):各 token 對齊至最近鄰辭典項目
  7. 辭典查詢:輸出繁體中文・日文・英文對照語義
  8. 音節邊界解析:以 CV / CVC 形式標示音節結構

現在能做到什麼

功能 狀態
巴賽語音檔 → 正書法文字
辭典語義對照(繁中・日・英)
音節邊界解析
補正規則自訂(進階設定)
多語言混合輸入(繁中 + 巴賽語)
歷史音源的高精度辨識 🔄 持續改善中

自然語流的辨識精度還有進步空間——訓練資料全來自 TTS 合成聲音,與真實人聲之間存在音質落差。這是下一階段的課題。


三個工具,現在在同一個地方

inkuei-basaytts.hf.space 現在整合了三項功能:

  • 文字轉語音 — 輸入巴賽語正書法,即時合成音聲
  • 聲音複製 — 用你自己的音色說出巴賽語(seed-vc)
  • 語音轉文字 — 說出巴賽語,轉錄為正書法文字

語言復振的迴圈,在技術層面上,正在慢慢閉合。


原始碼公開

本計畫所有程式碼已整合至 GitHub:

👉 github.com/ctotsai-hub/basay-tw

basay-tw/
├── hf-space-asr/   # 語音轉文字(Whisper fine-tuned + 後處理)
├── hf-space-tts/   # 文字轉語音・聲音複製・語音轉文字 統合 UI
└── dictionary/     # 3,000+ 語辭典

模型本體(.safetensors)因容量限制僅存放於 Hugging Face,程式碼在 GitHub 完整公開。


背景:一個人的語言復振

本計畫在完全沒有公共資助的情況下,以業餘時間推進。
eSpeak-NG 音聲定義、basay.tw 的建置、TTS・VC・ASR 三個 Space 的維運——全部使用免費或開源資源。

如果你覺得這個計畫有意義,最大的支持,就是把它分享出去。


立即試用

👉 inkuei-basaytts.hf.space — 點選「語音轉文字」分頁即可開始


Kisaizi a kawase a Basay — 大家一起說巴賽語。


本文採 CC BY-NC-SA 4.0 授權。
引用時請標明出處:basay.tw 研究筆記「語音轉文字功能讓您說岀來的巴賽語,機器能轉成文字!」(2026年6月29日)