基于大模型的垂直网站信息抽取方法、装置、设备和介质

正文

推荐专利

申请号：CN202411674263

申请日期：2024-11-21

公开号：CN119598050B

公开日期：2025-08-29

类型：发明专利

摘要

本发明公开了一种基于大模型的垂直网站信息抽取方法、装置、设备和介质。根据本发明提供的技术方案，利用大语言模型，从垂直领域网站中选取的种子网页中提取目标属性对应的第一属性文本信息；从该信息对应的节点中筛选得到正确节点，并确定正确节点的XPath的绝对路径表达式；基于绝对路径表达式从DOM树中确定锚节点，并基于正确节点和锚节点的相对位置，构建XPath最终表达式；利用XPath最终表达式，从垂直领域网站中提取出目标属性对应的第二属性文本信息。通过本发明由垂直领域网站中的种子网页确定出正确节点和锚节点，并由二者相对位置得出的XPath最终表达式从网站中提取目标信息，实现了在无需模型训练的情况下，成本更低且更精确的提取目标信息。

技术关键词

文本大语言模型表达式信息抽取方法种子锚节点通信接口计算机存储介质模块抽取装置处理器存储器指令格式

系统为您推荐了相关专利信息

一种可自由配置的结构化数据指纹生成与验证方法及系统

生成规则数据更新验证系统数据管理模块数据验证

一种非均匀结构传感器网络的干扰消除方法及系统

非均匀结构干扰消除方法初始聚类中心滤波器抽头表达式

一种基于大语言模型的词嵌入向量提取方法及系统

向量提取方法大语言模型动态词嵌入向量 Softmax函数

基于超参数指纹的生成式模型解析方法及装置

模型解析方法指纹超网络模型超参数图像

跨模态检索方法、装置、设备和介质

语义跨模态检索方法语句图像特征提取图片

基于大模型的垂直网站信息抽取方法、装置、设备和介质

站点导航

APP 下载