一个基于大语言模型的智能数据处理工具,能够将基础数据通过AI能力转化为丰富、完整的信息内容。
- 🤖 AI驱动: 集成通义千问等大语言模型,智能生成数据内容
- ⚡ 异步处理: 采用异步架构,支持高并发数据处理
- 📊 进度可视化: 集成进度条,实时显示处理进度
- 🔄 断点续传: 支持任务中断后的自动续传功能
- 📈 灵活配置: 通过YAML配置文件灵活调整处理参数
- 🛡️ 错误处理: 异常处理和重试机制
- 数据增强:将基础数据通过LLM扩充,生成完整的数据内容。
- 批量处理:支持CSV文件批量处理
- 提示词模版:支持多种提示词模板
- Python 3.8+
- LLM的API_KEY
pip install -r requirements.txt复制示例配置文件并编辑:
cp config.example.yaml config.yaml编辑config.yaml文件,设置您的API密钥:
llm_service:
api_key: "your-api-key-here"创建您的CSV数据文件,格式例子process_data/csv:
id,city_name
1,上海
2,杭州
3,南京创建您的提示词模版文件,必须包含id,格式例子prompts/city_prompt.txt:
请根据给定的城市 ID 和城市名称,为其补充一套完整、真实、有深度的城市信息字段,使数据具备实用性和可读性,适用于旅游推荐、城市分析、地理信息系统(GIS)或智能助手等应用场景。
id city_name
{id} {city_name}
请根据基础的城市信息,补充相关字段,使其数据内容更加丰富完善。
例如:
- city_content:描述城市的特征、环境、历史等
按照Json格式输出...
编辑config.yaml文件,设置您基本配置参数:
record:
output_csv_columns: # 要提取的字段
- id
- cityName
- cityDescription
# ...
data_process:
task_type: city_example # 任务类型,与提示词模版文件名一致
input_file_path: ../processed_data/city_example.csv # 输入文件路径cd src
python main.py处理完成后,查看生成的增强数据文件。例如processed_data/city_example/success_results.csv:
id,cityName,cityDescription,population,areaSqKm,elevationM,climateType,mainEconomy,culturalHighlights,touristAttractions,transportationHub,localCuisine,bestVisitSeason
1,上海,中国最具国际影响力的现代化大都市,长江三角洲核心城市,全球金融、贸易、航运与科技创新枢纽。,24870000,6340.5,4,亚热带季风气候,金融、国际贸易、高端制造、数字经济、文化创意产业,"['外滩建筑群(万国建筑博览)', '豫园与江南园林艺术', '石库门里弄文化', '海派文化(融合中西的都市生活方式)', '上海话与沪剧艺术']","['外滩历史文化街区', '东方明珠塔', '上海中心大厦观光厅', '田子坊创意园区', '迪士尼度假区', '新天地时尚文化地标']",亚洲最重要的综合交通枢纽之一,拥有浦东国际机场、虹桥国际机场、上海虹桥火车站及全国最密集的城市轨道交通网络(地铁里程超800公里),"['小笼包(以鲜肉汤汁著称)', '生煎馒头(底部酥脆、内馅多汁)', '红烧肉(浓油赤酱风格)', '八宝鸭(传统本帮菜代表)', '葱油拌面(地道上海风味)']",春季(3月–5月)与秋季(9月–11月),气候温和湿润,适合户外游览与节庆活动
2,杭州,中国江南文化名城,数字经济高地与诗意栖居地的完美融合,以西湖美景、千年文脉和创新活力著称。,12203000,8296.84,5,亚热带季风气候,数字经济、电子商务、人工智能、高端制造、文化旅游,"['西湖十景(如断桥残雪、雷峰夕照)', '良渚古城遗址(世界文化遗产)', '南宋皇城遗址与御街文化', '龙井茶文化与采茶习俗', '浙派建筑与江南园林艺术']","['西湖风景区(含苏堤、白堤、三潭印月)', '灵隐寺与飞来峰石刻', '河坊街历史文化街区', '宋城景区(主题文化演出)', '西溪国家湿地公园', '中国丝绸博物馆与京杭大运河杭州段']",长三角核心交通枢纽,拥有杭州萧山国际机场、杭州东站(高铁枢纽)、多条地铁线路及通达全国的高速公路网络,"['东坡肉', '西湖醋鱼', '龙井虾仁', '片儿川面', '定胜糕']",春季(3月至5月)与初秋(9月至10月),气候宜人,花木繁茂,西湖景色最为迷人
3,南京,六朝古都,十朝都会,中国历史文化名城,兼具江南水乡韵味与近代革命记忆的综合性中心城市。,9423000,6587.04,10,亚热带季风气候,高端制造、电子信息、生物医药、现代服务业、科技创新,"['六朝文化遗址(如建康城遗迹)', '明城墙与中华门城堡', '夫子庙—秦淮河风光带', '中山陵与孙中山纪念馆', '南京大屠杀遇难同胞纪念馆']","['中山陵', '夫子庙—秦淮河风光带', '明孝陵(世界文化遗产)', '玄武湖公园', '雨花台烈士陵园', '南京博物院']",华东地区重要铁路枢纽,拥有南京南站(亚洲最大高铁站之一)及禄口国际机场,长江黄金水道关键节点,地铁网络覆盖全城,"['盐水鸭', '小笼包(金陵小笼)', '鸭血粉丝汤', '牛肉锅贴', '糖芋苗(传统甜点)']",春季(3月–5月)与秋季(10月–11月),气候宜人,樱花盛开,梧桐落叶如画LLMProccesser/
├── src/ # 源代码目录
│ ├── main.py # 主程序入口
│ ├── config_manager.py # 配置管理器
│ ├── data_process.py # 数据处理核心
│ ├── prompt_manager.py # 提示词管理
│ ├── service/ # LLM服务相关
│ ├── dataloader/ # 数据加载器
│ ├── manager/ # 任务管理器
│ └── utils/ # 工具类
├── processed_data/ # 处理结果
├── prompts/ # 提示词模板
├── config.yaml # 配置文件
├── config.example.yaml # 配置示例文件
├── requirements.txt # 依赖包
├── README.md # 项目文档
└── log/ # 日志文件
MIT License - 详见LICENSE文件