Skip to content

sheng1111/EdgeFunASR_STT

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

1 Commit
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

STToolkit

Version Python Platform License Cursor

離線語音轉文字系統,支援即時轉錄與批次處理。

功能特點

  • 完全離線運行
  • 即時語音轉文字(WebSocket)
  • 批次音檔轉錄
  • 自動生成會議摘要
  • 跨平台支援(Windows / Linux x86_64)

系統需求

  • Python 3.11+
  • CPU 或 NVIDIA GPU(可選,用於加速)
  • 8GB+ RAM
  • 2GB 磁盤空間(用於模型存儲)

快速開始

  1. 創建虛擬環境:
python -m venv .venv
source .venv/bin/activate  # Linux
#
.venv\Scripts\activate  # Windows
  1. 安裝依賴:
pip install -r requirements.txt
  1. 下載模型:
# 基本下載(只下載必要的模型)
python scripts/download_models.py

# 或下載所有模型(包括可選的 MiniCPM-1B)
python scripts/download_models.py --full

模型將被下載到以下目錄:

  • models/funasr_stream/: 流式語音識別模型
  • models/funasr_offline/: 離線語音識別模型
  • models/llm/qwen_0.5b/: 預設的 Qwen1.5-0.5B-Chat 模型
  • models/llm/minicpm_1b/: 可選的 MiniCPM-1B 模型(使用 --full 時下載)
  1. 啟動服務:
python run.py
  1. 訪問界面: 打開瀏覽器訪問 http://localhost:8000

支援的音頻格式

  • WAV
  • MP3
  • M4A

開發說明

  • 前端:Bootstrap 5.1 + Vanilla JS
  • 後端:FastAPI + Uvicorn
  • 模型:
    • 語音識別:FunASR(流式 + 離線)
    • 摘要生成:Qwen1.5-0.5B-Chat(預設)或 MiniCPM-1B(可選)

授權協議

MIT License

About

No description, website, or topics provided.

Resources

License

Stars

Watchers

Forks

Packages

No packages published