基于自动化抓取技术的LLM数据采集处理方法及系统

AITNT
正文
推荐专利
基于自动化抓取技术的LLM数据采集处理方法及系统
申请号:CN202510039736
申请日期:2025-01-10
公开号:CN119474506A
公开日期:2025-02-18
类型:发明专利
摘要
本发明公开了一种基于自动化抓取技术的LLM数据采集处理方法及系统,涉及人工智能技术领域,该方法包括:分布式节点架构中的每个爬取节点分配数据采集任务;爬取节点基于数据采集任务访问不同的数据源,以得到采集数据;当爬取节点完成一轮数据采集后,基于采集进度和采集效率调整任务分配;对采集数据进行第一次数据处理,对经过第一次数据处理后的采集数据进行数据质量评估、无效信息去除和文本校正;将来自不同数据源已完成第一次数据处理的采集数据进行整合,得到整合数据,对整合数据进行第二次数据处理,以得到LLM数据,有助于解决现有技术无法高效且高质量地采集、处理用于LLM的各类数据源的数据的问题。
技术关键词
自动化抓取技术 文本校正 智能调度算法 节点 数据缺失值 数据格式 非暂态计算机可读介质 网络带宽利用率 预取技术 去重算法 时效性 人工智能技术 数据采集模块 处理器 频率 唯一性
系统为您推荐了相关专利信息
1
基于视觉贡献度的三维物体剔除方法、装置及存储介质
节点 产品结构树 列表 物体 模型树
2
考虑源荷不确定性的电力系统双层协同无功控制策略
配电网分布式无功优化 配电网无功优化 分布式光伏 控制策略 静态无功补偿器
3
一种自动化生产线计算任务调度方法、设备、介质及产品
任务调度方法 卸载策略 拍卖算法 深度学习模型 制造业设备
4
一种面向妊娠数据的可局部微调联邦学习框架和方法
分类预测模型 中心服务器 联邦学习方法 深度神经网络分类 参数
5
一种一体化深度混叠频谱信号参数识别方法
信号参数识别方法 矩阵 频谱资源管理 短时傅里叶变换 粒子群优化算法
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号