摘要
本发明公开一种基于异构图进行视图多层聚合的字幕生成方法及系统,涉及多模态理解技术领域,解决现有技术生成的描述文本缺乏对复杂场景的精确描述能力和语义连贯性,难以准确表达出图像中的细节与逻辑关系的技术问题;本发明包括步骤A:从图像中提取实体层次特征和关系层次特征;步骤B:构建异构图,将实体层次特征与异构图结合,而后提取异构图结构特征,再将异构图结构特征与关系层次特征融合得到多模态融合特征;步骤C:对历史文本序列以及多模态融合特征进行处理得到最佳字幕描述;本发明能够更好地保持和增强各个模态的特征表达,特别是在处理复杂场景时,该机制能够更准确地捕捉视觉元素之间的关系,生成更加准确和细致的描述。
技术关键词
字幕生成方法
节点特征
异构
融合特征
注意力
关系
矩阵
融合局部特征
实体
跨模态
图像
序列
模态特征
解码器
多层次特征提取
多模态
文本特征向量
系统为您推荐了相关专利信息
递归神经网络模型
降雨预测方法
注意力
训练集
样本
分布估计算法
异常识别方法
残差神经网络
残差网络
加速度