一种基于机器学习大模型的爬虫内容提取方法

AITNT
正文
推荐专利
一种基于机器学习大模型的爬虫内容提取方法
申请号:CN202510131002
申请日期:2025-02-06
公开号:CN120045765A
公开日期:2025-05-27
类型:发明专利
摘要
本申请涉及机器学习领域,提供一种基于机器学习大模型的爬虫内容提取方法,方法包括:从内容队列中获取统一资源定位符URL,使用自然语言处理的Transformer模型对统一资源定位符URL定位的内容进行分类,得到内容类型;根据分类结果选择相应的提示词模板,并根据内容类型生成初步提示词模板,将内容的上下文输入到机器学习大模型中,机器学习大模型动态生成提示词,通过策略梯度法模型根据反馈动态调整提示词;根据提示词和分类结果,解析内容并输出JSON结构化数据,对结构化数据进行置信度评分并给出评分原因分析,并将结构化数据进行可视化展示。本申请准确率高、成本低、可扩展性高、泛化能力强、计算资源利用率高。
技术关键词
内容提取方法 统一资源定位 生成提示词 爬虫 自然语言 文本去重 置信度阈值 内容分类 模板 数据 动态 新鲜度 队列 策略 格式 标签 标识 算法
系统为您推荐了相关专利信息
1
一种人机协同的地理空间推理认知框架方法及系统
框架方法 人机协同 大语言模型 动态 语义
2
基于大数据的生涯数据采集分析系统及方法
知识点 数据采集分析系统 矩阵 数据采集单元 网络爬虫技术
3
一种数据处理方法及系统
数据标签 主题数据 数据存储 静态特征 数据访问接口
4
流程审批节点推送方法、装置、设备及存储介质
管理系统 下游系统 表单模板 推送方法 接口
5
一种基于自然语言处理的文本生成方法及系统
文本生成方法 专业 自然语言 语言分析 数据
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号