一种网页内容的主题提炼方法及系统

AITNT
正文
推荐专利
一种网页内容的主题提炼方法及系统
申请号:CN202510411054
申请日期:2025-04-02
公开号:CN120354848A
公开日期:2025-07-22
类型:发明专利
摘要
本发明提供了一种网页内容的主题提炼方法及系统,该方法包括:爬虫获取网页中的原始文本数据、图片数据、音频数据和/或视频数据;基于图片数据、音频数据和/或视频数据提取文本数据,将提取得到的文本数据与原始文本数据合并,得到综合文本数据;使用SAC‑KG语言模型解析所述综合文本数据并自动化构建知识图谱,使用NLP大模型生成描述所述知识图谱包含的三元组的自然语言文本;将所述自然语言文本缩减到预设字数范围内作为生成的关于网页内容的主题提炼结果;其中,提取视频数据中包含的关键帧图像和音频数据,使用语音识别模型将音频数据转化为文本数据,基于OCR技术提取关键帧图像和/或图片数据中包含的文本数据。
技术关键词
自然语言文本 数据 语音识别模型 构建知识图谱 三元组 音频 关键帧 主题 图片 感知线性预测 视频 生成式摘要 提炼系统 实体 剪枝器 爬虫 图像
系统为您推荐了相关专利信息
1
基于多模型的伪文档生成方法及系统
文档生成方法 启发式规则 多模型 语言模型概率 文档生成模块
2
一种基于合成孔径雷达高度计数据的内孤立波识别方法
合成孔径雷达高度计 卷积特征提取 卫星合成孔径雷达 识别方法 联合注意力机制
3
一种融合RPA与AI的智能流水线作业方法及系统
智能流水线 作业方法 流水线作业 RPA技术 计算机可读指令
4
一种结合难度特征和时间相关性特征的知识追踪方法
知识点 知识追踪方法 学生 答题数据 矩阵
5
一种基于单码道的位置识别系统、方法、设备及存储介质
位置识别系统 路径损耗模型 节点 位置识别方法 信号
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号