摘要
本发明提供了一种网页内容的主题提炼方法及系统,该方法包括:爬虫获取网页中的原始文本数据、图片数据、音频数据和/或视频数据;基于图片数据、音频数据和/或视频数据提取文本数据,将提取得到的文本数据与原始文本数据合并,得到综合文本数据;使用SAC‑KG语言模型解析所述综合文本数据并自动化构建知识图谱,使用NLP大模型生成描述所述知识图谱包含的三元组的自然语言文本;将所述自然语言文本缩减到预设字数范围内作为生成的关于网页内容的主题提炼结果;其中,提取视频数据中包含的关键帧图像和音频数据,使用语音识别模型将音频数据转化为文本数据,基于OCR技术提取关键帧图像和/或图片数据中包含的文本数据。
技术关键词
自然语言文本
数据
语音识别模型
构建知识图谱
三元组
音频
关键帧
主题
图片
感知线性预测
视频
生成式摘要
提炼系统
实体
剪枝器
爬虫
图像
系统为您推荐了相关专利信息
文档生成方法
启发式规则
多模型
语言模型概率
文档生成模块
合成孔径雷达高度计
卷积特征提取
卫星合成孔径雷达
识别方法
联合注意力机制
智能流水线
作业方法
流水线作业
RPA技术
计算机可读指令
位置识别系统
路径损耗模型
节点
位置识别方法
信号