Skip to content

wuji1428/llm-processor

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

3 Commits
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

🚀 LLM数据处理器

一个基于大语言模型的智能数据处理工具,能够将基础数据通过AI能力转化为丰富、完整的信息内容。

✨ 项目亮点

  • 🤖 AI驱动: 集成通义千问等大语言模型,智能生成数据内容
  • ⚡ 异步处理: 采用异步架构,支持高并发数据处理
  • 📊 进度可视化: 集成进度条,实时显示处理进度
  • 🔄 断点续传: 支持任务中断后的自动续传功能
  • 📈 灵活配置: 通过YAML配置文件灵活调整处理参数
  • 🛡️ 错误处理: 异常处理和重试机制

🎯 核心功能

  • 数据增强:将基础数据通过LLM扩充,生成完整的数据内容。
  • 批量处理:支持CSV文件批量处理
  • 提示词模版:支持多种提示词模板

🚀 快速开始

环境要求

  • Python 3.8+
  • LLM的API_KEY

1. 安装依赖

pip install -r requirements.txt

2. 配置API密钥

复制示例配置文件并编辑:

cp config.example.yaml config.yaml

编辑config.yaml文件,设置您的API密钥:

llm_service:
  api_key: "your-api-key-here"

3. 准备数据和提示词模版

创建您的CSV数据文件,格式例子process_data/csv

id,city_name
1,上海
2,杭州
3,南京

创建您的提示词模版文件,必须包含id,格式例子prompts/city_prompt.txt

请根据给定的城市 ID 和城市名称,为其补充一套完整、真实、有深度的城市信息字段,使数据具备实用性和可读性,适用于旅游推荐、城市分析、地理信息系统(GIS)或智能助手等应用场景。
id city_name
{id} {city_name}

请根据基础的城市信息,补充相关字段,使其数据内容更加丰富完善。
例如:
- city_content:描述城市的特征、环境、历史等

按照Json格式输出...

编辑config.yaml文件,设置您基本配置参数:

record:
    output_csv_columns: # 要提取的字段
        - id
        - cityName
        - cityDescription
        # ...
    
data_process:
  task_type: city_example # 任务类型,与提示词模版文件名一致
  input_file_path: ../processed_data/city_example.csv # 输入文件路径

4. 运行处理

cd src
python main.py

5. 查看结果

处理完成后,查看生成的增强数据文件。例如processed_data/city_example/success_results.csv

id,cityName,cityDescription,population,areaSqKm,elevationM,climateType,mainEconomy,culturalHighlights,touristAttractions,transportationHub,localCuisine,bestVisitSeason
1,上海,中国最具国际影响力的现代化大都市,长江三角洲核心城市,全球金融、贸易、航运与科技创新枢纽。,24870000,6340.5,4,亚热带季风气候,金融、国际贸易、高端制造、数字经济、文化创意产业,"['外滩建筑群(万国建筑博览)', '豫园与江南园林艺术', '石库门里弄文化', '海派文化(融合中西的都市生活方式)', '上海话与沪剧艺术']","['外滩历史文化街区', '东方明珠塔', '上海中心大厦观光厅', '田子坊创意园区', '迪士尼度假区', '新天地时尚文化地标']",亚洲最重要的综合交通枢纽之一,拥有浦东国际机场、虹桥国际机场、上海虹桥火车站及全国最密集的城市轨道交通网络(地铁里程超800公里),"['小笼包(以鲜肉汤汁著称)', '生煎馒头(底部酥脆、内馅多汁)', '红烧肉(浓油赤酱风格)', '八宝鸭(传统本帮菜代表)', '葱油拌面(地道上海风味)']",春季(3月–5月)与秋季(9月–11月),气候温和湿润,适合户外游览与节庆活动
2,杭州,中国江南文化名城,数字经济高地与诗意栖居地的完美融合,以西湖美景、千年文脉和创新活力著称。,12203000,8296.84,5,亚热带季风气候,数字经济、电子商务、人工智能、高端制造、文化旅游,"['西湖十景(如断桥残雪、雷峰夕照)', '良渚古城遗址(世界文化遗产)', '南宋皇城遗址与御街文化', '龙井茶文化与采茶习俗', '浙派建筑与江南园林艺术']","['西湖风景区(含苏堤、白堤、三潭印月)', '灵隐寺与飞来峰石刻', '河坊街历史文化街区', '宋城景区(主题文化演出)', '西溪国家湿地公园', '中国丝绸博物馆与京杭大运河杭州段']",长三角核心交通枢纽,拥有杭州萧山国际机场、杭州东站(高铁枢纽)、多条地铁线路及通达全国的高速公路网络,"['东坡肉', '西湖醋鱼', '龙井虾仁', '片儿川面', '定胜糕']",春季(3月至5月)与初秋(9月至10月),气候宜人,花木繁茂,西湖景色最为迷人
3,南京,六朝古都,十朝都会,中国历史文化名城,兼具江南水乡韵味与近代革命记忆的综合性中心城市。,9423000,6587.04,10,亚热带季风气候,高端制造、电子信息、生物医药、现代服务业、科技创新,"['六朝文化遗址(如建康城遗迹)', '明城墙与中华门城堡', '夫子庙—秦淮河风光带', '中山陵与孙中山纪念馆', '南京大屠杀遇难同胞纪念馆']","['中山陵', '夫子庙—秦淮河风光带', '明孝陵(世界文化遗产)', '玄武湖公园', '雨花台烈士陵园', '南京博物院']",华东地区重要铁路枢纽,拥有南京南站(亚洲最大高铁站之一)及禄口国际机场,长江黄金水道关键节点,地铁网络覆盖全城,"['盐水鸭', '小笼包(金陵小笼)', '鸭血粉丝汤', '牛肉锅贴', '糖芋苗(传统甜点)']",春季(3月–5月)与秋季(10月–11月),气候宜人,樱花盛开,梧桐落叶如画

项目结构

LLMProccesser/
├── src/                   # 源代码目录
│   ├── main.py            # 主程序入口
│   ├── config_manager.py  # 配置管理器
│   ├── data_process.py    # 数据处理核心
│   ├── prompt_manager.py  # 提示词管理
│   ├── service/           # LLM服务相关
│   ├── dataloader/        # 数据加载器
│   ├── manager/           # 任务管理器
│   └── utils/             # 工具类
├── processed_data/        # 处理结果
├── prompts/               # 提示词模板
├── config.yaml            # 配置文件
├── config.example.yaml    # 配置示例文件
├── requirements.txt       # 依赖包
├── README.md              # 项目文档
└── log/                  # 日志文件

📄 许可证

MIT License - 详见LICENSE文件

About

Data augmentation using LLM

Resources

License

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages