摘要
本发明提供了一种分布式开源情报的提取方法、装置、设备及存储介质,通过先获取连接配置,并根据所述连接配置录入数据源信息;接着,基于所述数据源信息分析主网页的HTML结构,并基于分析结果构建文档对象模型树以识别主网页内容的分布信息,调用预训练的大语言模型对所述主网页内容的分布信息进行语义理解,并对所理解的内容生成列表数据;再接着,依次访问所述列表数据的每一详情页链接,提取每一详情页的HTML内容并生成每一详情页的区域特征向量,调用预训练的大语言模型对每一详情页的区域特征向量进行处理,并生成列表和详情的结构化数据。解决了在对网页进行信息提取时出现提取错误的问题。
技术关键词
文档对象模型
生成列表
词嵌入向量
数据
标签
编码向量
信息编码
注意力机制
索引
文本
语义
节点
可读存储介质
接口
参数
元素
处理器
字符
系统为您推荐了相关专利信息
存储模块
存储控制模块
转换单元
数据处理模块
存储组件
图像识别模型
图像采集装置
细胞图像识别方法
特征提取网络
样本
分布式存储模块
智能分析模块
数据采集模块
数据处理模块
日志结构合并树
跟踪方法
图像特征提取
图像分类网络
轨迹
匈牙利匹配算法