基于多模态学习的视觉-文本协同摘要生成方法及系统

正文

推荐专利

申请号：CN202510352173

申请日期：2025-03-25

公开号：CN119862861B

公开日期：2025-07-15

类型：发明专利

摘要

本申请属于自然语言处理交叉领域，具体涉及一种基于多模态学习的视觉‑文本协同摘要生成方法及系统，包括多模态数据接收模块，用于并行接收多模态输入数据，包括文本数据和视觉数据；视觉语义理解模块，采用视觉语义理解模型提取图像的高层语义特征并生成文本描述；语义融合模块，采用基于方向一致性与自适应语义补全的视觉‑文本语义融合方法，将原始文本与生成的图像描述进行语义层面的融合；摘要优化模块，采用多层深度融合的混合神经网络架构对融合特征进行语义重构，生成符合上下文语义和准确表达的摘要文本。优点在于：精准对齐视觉和文本信息，生成高质量摘要，特别适用于新闻报道、会议记录、视频内容分析等需要跨模态信息融合的场景。

技术关键词

摘要生成方法语义理解模型多模态图像视觉特征编码注意力文本编码器识别视频内容摘要生成系统 sigmoid函数解码器生成文本摘要动态高层语义特征

系统为您推荐了相关专利信息

适用于智能镜的语音指令精确识别方法及系统

精确识别方法语音识别模型编码器指令识别特征

一种脑肿瘤图像识别系统及方法

脑肿瘤分割脑肿瘤分类多模态图像识别系统模态特征

一种基于大语言模型的软件成果验收方法

大语言模型验收方法多模态生成文档生成软件

应用于智能安防下的安全巡检方法及系统

智能安防移动巡检设备多模态元素风险

多准则联合约束的距离像序列超分辨方法

超分辨方法重构模型序列矩阵正则化参数

基于多模态学习的视觉-文本协同摘要生成方法及系统

站点导航

APP 下载