一种网页内容的主题提炼方法及系统

正文

推荐专利

一种网页内容的主题提炼方法及系统

申请号：CN202510411054

申请日期：2025-04-02

公开号：CN120354848A

公开日期：2025-07-22

类型：发明专利

摘要

本发明提供了一种网页内容的主题提炼方法及系统，该方法包括：爬虫获取网页中的原始文本数据、图片数据、音频数据和/或视频数据；基于图片数据、音频数据和/或视频数据提取文本数据，将提取得到的文本数据与原始文本数据合并，得到综合文本数据；使用SAC‑KG语言模型解析所述综合文本数据并自动化构建知识图谱，使用NLP大模型生成描述所述知识图谱包含的三元组的自然语言文本；将所述自然语言文本缩减到预设字数范围内作为生成的关于网页内容的主题提炼结果；其中，提取视频数据中包含的关键帧图像和音频数据，使用语音识别模型将音频数据转化为文本数据，基于OCR技术提取关键帧图像和/或图片数据中包含的文本数据。

技术关键词

自然语言文本数据语音识别模型构建知识图谱三元组音频关键帧主题图片感知线性预测视频生成式摘要提炼系统实体剪枝器爬虫图像

系统为您推荐了相关专利信息

基于多模型的伪文档生成方法及系统

文档生成方法启发式规则多模型语言模型概率文档生成模块

一种基于合成孔径雷达高度计数据的内孤立波识别方法

合成孔径雷达高度计卷积特征提取卫星合成孔径雷达识别方法联合注意力机制

一种融合RPA与AI的智能流水线作业方法及系统

智能流水线作业方法流水线作业 RPA技术计算机可读指令

一种结合难度特征和时间相关性特征的知识追踪方法

知识点知识追踪方法学生答题数据矩阵

一种基于单码道的位置识别系统、方法、设备及存储介质

位置识别系统路径损耗模型节点位置识别方法信号

一种网页内容的主题提炼方法及系统

站点导航

APP 下载