一种分布式开源情报的提取方法、装置、设备及存储介质

AITNT
正文
推荐专利
一种分布式开源情报的提取方法、装置、设备及存储介质
申请号:CN202510405472
申请日期:2025-04-02
公开号:CN119917755A
公开日期:2025-05-02
类型:发明专利
摘要
本发明提供了一种分布式开源情报的提取方法、装置、设备及存储介质,通过先获取连接配置,并根据所述连接配置录入数据源信息;接着,基于所述数据源信息分析主网页的HTML结构,并基于分析结果构建文档对象模型树以识别主网页内容的分布信息,调用预训练的大语言模型对所述主网页内容的分布信息进行语义理解,并对所理解的内容生成列表数据;再接着,依次访问所述列表数据的每一详情页链接,提取每一详情页的HTML内容并生成每一详情页的区域特征向量,调用预训练的大语言模型对每一详情页的区域特征向量进行处理,并生成列表和详情的结构化数据。解决了在对网页进行信息提取时出现提取错误的问题。
技术关键词
文档对象模型 生成列表 词嵌入向量 数据 标签 编码向量 信息编码 注意力机制 索引 文本 语义 节点 可读存储介质 接口 参数 元素 处理器 字符
系统为您推荐了相关专利信息
1
基于数据保护的云端推理方法、装置、存储介质及系统
历史会话 私钥 非对称密钥算法 进程 数据保护
2
一种SOC芯片以及电子设备
存储模块 存储控制模块 转换单元 数据处理模块 存储组件
3
细胞图像识别方法、装置、系统、计算机设备和介质
图像识别模型 图像采集装置 细胞图像识别方法 特征提取网络 样本
4
一种基于分布式存储与多协议适配的光传输系统管理平台
分布式存储模块 智能分析模块 数据采集模块 数据处理模块 日志结构合并树
5
一种用于煤矸石及杂物的多目标跟踪方法和系统
跟踪方法 图像特征提取 图像分类网络 轨迹 匈牙利匹配算法
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号