離線語音轉文字系統,支援即時轉錄與批次處理。
- 完全離線運行
- 即時語音轉文字(WebSocket)
- 批次音檔轉錄
- 自動生成會議摘要
- 跨平台支援(Windows / Linux x86_64)
- Python 3.11+
- CPU 或 NVIDIA GPU(可選,用於加速)
- 8GB+ RAM
- 2GB 磁盤空間(用於模型存儲)
- 創建虛擬環境:
python -m venv .venv
source .venv/bin/activate # Linux
# 或
.venv\Scripts\activate # Windows- 安裝依賴:
pip install -r requirements.txt- 下載模型:
# 基本下載(只下載必要的模型)
python scripts/download_models.py
# 或下載所有模型(包括可選的 MiniCPM-1B)
python scripts/download_models.py --full模型將被下載到以下目錄:
models/funasr_stream/: 流式語音識別模型models/funasr_offline/: 離線語音識別模型models/llm/qwen_0.5b/: 預設的 Qwen1.5-0.5B-Chat 模型models/llm/minicpm_1b/: 可選的 MiniCPM-1B 模型(使用 --full 時下載)
- 啟動服務:
python run.py- 訪問界面: 打開瀏覽器訪問 http://localhost:8000
- WAV
- MP3
- M4A
- 前端:Bootstrap 5.1 + Vanilla JS
- 後端:FastAPI + Uvicorn
- 模型:
- 語音識別:FunASR(流式 + 離線)
- 摘要生成:Qwen1.5-0.5B-Chat(預設)或 MiniCPM-1B(可選)
MIT License