摘要
本发明公开了一种基于大模型的垂直网站信息抽取方法、装置、设备和介质。根据本发明提供的技术方案,利用大语言模型,从垂直领域网站中选取的种子网页中提取目标属性对应的第一属性文本信息;从该信息对应的节点中筛选得到正确节点,并确定正确节点的XPath的绝对路径表达式;基于绝对路径表达式从DOM树中确定锚节点,并基于正确节点和锚节点的相对位置,构建XPath最终表达式;利用XPath最终表达式,从垂直领域网站中提取出目标属性对应的第二属性文本信息。通过本发明由垂直领域网站中的种子网页确定出正确节点和锚节点,并由二者相对位置得出的XPath最终表达式从网站中提取目标信息,实现了在无需模型训练的情况下,成本更低且更精确的提取目标信息。
技术关键词
文本
大语言模型
表达式
信息抽取方法
种子
锚节点
通信接口
计算机存储介质
模块
抽取装置
处理器
存储器
指令
格式
系统为您推荐了相关专利信息
生成规则
数据更新
验证系统
数据管理模块
数据验证
非均匀结构
干扰消除方法
初始聚类中心
滤波器抽头
表达式
向量提取方法
大语言模型
动态
词嵌入向量
Softmax函数