一种基于异构图进行视图多层聚合的字幕生成方法及系统

正文

推荐专利

申请号：CN202510478947

申请日期：2025-04-16

公开号：CN120375350A

公开日期：2025-07-25

类型：发明专利

摘要

本发明公开一种基于异构图进行视图多层聚合的字幕生成方法及系统，涉及多模态理解技术领域，解决现有技术生成的描述文本缺乏对复杂场景的精确描述能力和语义连贯性，难以准确表达出图像中的细节与逻辑关系的技术问题；本发明包括步骤A：从图像中提取实体层次特征和关系层次特征；步骤B：构建异构图，将实体层次特征与异构图结合，而后提取异构图结构特征，再将异构图结构特征与关系层次特征融合得到多模态融合特征；步骤C：对历史文本序列以及多模态融合特征进行处理得到最佳字幕描述；本发明能够更好地保持和增强各个模态的特征表达，特别是在处理复杂场景时，该机制能够更准确地捕捉视觉元素之间的关系，生成更加准确和细致的描述。

技术关键词

字幕生成方法节点特征异构融合特征注意力关系矩阵融合局部特征实体跨模态图像序列模态特征解码器多层次特征提取多模态文本特征向量

系统为您推荐了相关专利信息

一种基于雷达回波图和注意力增强的短临降雨预测方法

递归神经网络模型降雨预测方法注意力训练集样本

基于机器学习的电力机车故障预警方法

故障类别时序电力机车故障故障特征编码向量

一种基于语义和细节协作的弱监督指向性分割方法

跨模态语义分割方法模态特征文本编码器

一种聘用式密度聚类方法及系统

节点特征密度聚类方法人脸特征基准特征层级

基于分布估计算法与残差网络的畜禽行为模式异常识别方法

分布估计算法异常识别方法残差神经网络残差网络加速度

一种基于异构图进行视图多层聚合的字幕生成方法及系统

站点导航

APP 下载