一种基于机器学习大模型的爬虫内容提取方法

正文

推荐专利

申请号：CN202510131002

申请日期：2025-02-06

公开号：CN120045765A

公开日期：2025-05-27

类型：发明专利

摘要

本申请涉及机器学习领域，提供一种基于机器学习大模型的爬虫内容提取方法，方法包括：从内容队列中获取统一资源定位符URL，使用自然语言处理的Transformer模型对统一资源定位符URL定位的内容进行分类，得到内容类型；根据分类结果选择相应的提示词模板，并根据内容类型生成初步提示词模板，将内容的上下文输入到机器学习大模型中，机器学习大模型动态生成提示词，通过策略梯度法模型根据反馈动态调整提示词；根据提示词和分类结果，解析内容并输出JSON结构化数据，对结构化数据进行置信度评分并给出评分原因分析，并将结构化数据进行可视化展示。本申请准确率高、成本低、可扩展性高、泛化能力强、计算资源利用率高。

技术关键词

内容提取方法统一资源定位生成提示词爬虫自然语言文本去重置信度阈值内容分类模板数据动态新鲜度队列策略格式标签标识算法

系统为您推荐了相关专利信息

一种人机协同的地理空间推理认知框架方法及系统

框架方法人机协同大语言模型动态语义

基于大数据的生涯数据采集分析系统及方法

知识点数据采集分析系统矩阵数据采集单元网络爬虫技术

一种数据处理方法及系统

数据标签主题数据数据存储静态特征数据访问接口

流程审批节点推送方法、装置、设备及存储介质

管理系统下游系统表单模板推送方法接口

一种基于自然语言处理的文本生成方法及系统

文本生成方法专业自然语言语言分析数据

一种基于机器学习大模型的爬虫内容提取方法

站点导航

APP 下载