摘要
本申请属于自然语言处理交叉领域,具体涉及一种基于多模态学习的视觉‑文本协同摘要生成方法及系统,包括多模态数据接收模块,用于并行接收多模态输入数据,包括文本数据和视觉数据;视觉语义理解模块,采用视觉语义理解模型提取图像的高层语义特征并生成文本描述;语义融合模块,采用基于方向一致性与自适应语义补全的视觉‑文本语义融合方法,将原始文本与生成的图像描述进行语义层面的融合;摘要优化模块,采用多层深度融合的混合神经网络架构对融合特征进行语义重构,生成符合上下文语义和准确表达的摘要文本。优点在于:精准对齐视觉和文本信息,生成高质量摘要,特别适用于新闻报道、会议记录、视频内容分析等需要跨模态信息融合的场景。
技术关键词
摘要生成方法
语义理解模型
多模态
图像
视觉特征编码
注意力
文本编码器
识别视频内容
摘要生成系统
sigmoid函数
解码器
生成文本摘要
动态
高层语义特征
系统为您推荐了相关专利信息
精确识别方法
语音识别模型
编码器
指令
识别特征
脑肿瘤分割
脑肿瘤分类
多模态
图像识别系统
模态特征