摘要
本申请涉及机器学习领域,提供一种基于机器学习大模型的爬虫内容提取方法,方法包括:从内容队列中获取统一资源定位符URL,使用自然语言处理的Transformer模型对统一资源定位符URL定位的内容进行分类,得到内容类型;根据分类结果选择相应的提示词模板,并根据内容类型生成初步提示词模板,将内容的上下文输入到机器学习大模型中,机器学习大模型动态生成提示词,通过策略梯度法模型根据反馈动态调整提示词;根据提示词和分类结果,解析内容并输出JSON结构化数据,对结构化数据进行置信度评分并给出评分原因分析,并将结构化数据进行可视化展示。本申请准确率高、成本低、可扩展性高、泛化能力强、计算资源利用率高。
技术关键词
内容提取方法
统一资源定位
生成提示词
爬虫
自然语言
文本去重
置信度阈值
内容分类
模板
数据
动态
新鲜度
队列
策略
格式
标签
标识
算法
系统为您推荐了相关专利信息
知识点
数据采集分析系统
矩阵
数据采集单元
网络爬虫技术
数据标签
主题数据
数据存储
静态特征
数据访问接口