一种分布式开源情报的提取方法、装置、设备及存储介质

正文

推荐专利

申请号：CN202510405472

申请日期：2025-04-02

公开号：CN119917755A

公开日期：2025-05-02

类型：发明专利

摘要

本发明提供了一种分布式开源情报的提取方法、装置、设备及存储介质，通过先获取连接配置，并根据所述连接配置录入数据源信息；接着，基于所述数据源信息分析主网页的HTML结构，并基于分析结果构建文档对象模型树以识别主网页内容的分布信息，调用预训练的大语言模型对所述主网页内容的分布信息进行语义理解，并对所理解的内容生成列表数据；再接着，依次访问所述列表数据的每一详情页链接，提取每一详情页的HTML内容并生成每一详情页的区域特征向量，调用预训练的大语言模型对每一详情页的区域特征向量进行处理，并生成列表和详情的结构化数据。解决了在对网页进行信息提取时出现提取错误的问题。

技术关键词

文档对象模型生成列表词嵌入向量数据标签编码向量信息编码注意力机制索引文本语义节点可读存储介质接口参数元素处理器字符

系统为您推荐了相关专利信息

基于数据保护的云端推理方法、装置、存储介质及系统

历史会话私钥非对称密钥算法进程数据保护

一种SOC芯片以及电子设备

存储模块存储控制模块转换单元数据处理模块存储组件

细胞图像识别方法、装置、系统、计算机设备和介质

图像识别模型图像采集装置细胞图像识别方法特征提取网络样本

一种基于分布式存储与多协议适配的光传输系统管理平台

分布式存储模块智能分析模块数据采集模块数据处理模块日志结构合并树

一种用于煤矸石及杂物的多目标跟踪方法和系统

跟踪方法图像特征提取图像分类网络轨迹匈牙利匹配算法

一种分布式开源情报的提取方法、装置、设备及存储介质

站点导航

APP 下载