基于大模型的垂直网站信息抽取方法、装置、设备和介质

AITNT
正文
推荐专利
基于大模型的垂直网站信息抽取方法、装置、设备和介质
申请号:CN202411674263
申请日期:2024-11-21
公开号:CN119598050B
公开日期:2025-08-29
类型:发明专利
摘要
本发明公开了一种基于大模型的垂直网站信息抽取方法、装置、设备和介质。根据本发明提供的技术方案,利用大语言模型,从垂直领域网站中选取的种子网页中提取目标属性对应的第一属性文本信息;从该信息对应的节点中筛选得到正确节点,并确定正确节点的XPath的绝对路径表达式;基于绝对路径表达式从DOM树中确定锚节点,并基于正确节点和锚节点的相对位置,构建XPath最终表达式;利用XPath最终表达式,从垂直领域网站中提取出目标属性对应的第二属性文本信息。通过本发明由垂直领域网站中的种子网页确定出正确节点和锚节点,并由二者相对位置得出的XPath最终表达式从网站中提取目标信息,实现了在无需模型训练的情况下,成本更低且更精确的提取目标信息。
技术关键词
文本 大语言模型 表达式 信息抽取方法 种子 锚节点 通信接口 计算机存储介质 模块 抽取装置 处理器 存储器 指令 格式
系统为您推荐了相关专利信息
1
一种可自由配置的结构化数据指纹生成与验证方法及系统
生成规则 数据更新 验证系统 数据管理模块 数据验证
2
一种非均匀结构传感器网络的干扰消除方法及系统
非均匀结构 干扰消除方法 初始聚类中心 滤波器抽头 表达式
3
一种基于大语言模型的词嵌入向量提取方法及系统
向量提取方法 大语言模型 动态 词嵌入向量 Softmax函数
4
基于超参数指纹的生成式模型解析方法及装置
模型解析方法 指纹 超网络 模型超参数 图像
5
跨模态检索方法、装置、设备和介质
语义 跨模态检索方法 语句 图像特征提取 图片
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号