STToolkit

離線語音轉文字系統，支援即時轉錄與批次處理。

功能特點

完全離線運行
即時語音轉文字（WebSocket）
批次音檔轉錄
自動生成會議摘要
跨平台支援（Windows / Linux x86_64）

系統需求

Python 3.11+
CPU 或 NVIDIA GPU（可選，用於加速）
8GB+ RAM
2GB 磁盤空間（用於模型存儲）

快速開始

創建虛擬環境：

python -m venv .venv
source .venv/bin/activate  # Linux
# 或
.venv\Scripts\activate  # Windows

安裝依賴：

pip install -r requirements.txt

下載模型：

# 基本下載（只下載必要的模型）
python scripts/download_models.py

# 或下載所有模型（包括可選的 MiniCPM-1B）
python scripts/download_models.py --full

模型將被下載到以下目錄：

models/funasr_stream/: 流式語音識別模型
models/funasr_offline/: 離線語音識別模型
models/llm/qwen_0.5b/: 預設的 Qwen1.5-0.5B-Chat 模型
models/llm/minicpm_1b/: 可選的 MiniCPM-1B 模型（使用 --full 時下載）

啟動服務：

python run.py

訪問界面：打開瀏覽器訪問 http://localhost:8000

支援的音頻格式

WAV
MP3
M4A

開發說明

前端：Bootstrap 5.1 + Vanilla JS
後端：FastAPI + Uvicorn
模型：
- 語音識別：FunASR（流式 + 離線）
- 摘要生成：Qwen1.5-0.5B-Chat（預設）或 MiniCPM-1B（可選）

授權協議

MIT License

Name		Name	Last commit message	Last commit date
Latest commit History 1 Commit
app		app
scripts		scripts
uploads		uploads
.gitignore		.gitignore
LICENSE		LICENSE
README.md		README.md
app.py		app.py
cursor_document.md		cursor_document.md
requirements.txt		requirements.txt

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

STToolkit

功能特點

系統需求

快速開始

支援的音頻格式

開發說明

授權協議

About

Uh oh!

Releases

Packages

Uh oh!

Languages

License

sheng1111/EdgeFunASR_STT

Folders and files

Latest commit

History

Repository files navigation

STToolkit

功能特點

系統需求

快速開始

支援的音頻格式

開發說明

授權協議

About

Resources

License

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Uh oh!

Languages

Packages