一种基于异构图进行视图多层聚合的字幕生成方法及系统

AITNT
正文
推荐专利
一种基于异构图进行视图多层聚合的字幕生成方法及系统
申请号:CN202510478947
申请日期:2025-04-16
公开号:CN120375350A
公开日期:2025-07-25
类型:发明专利
摘要
本发明公开一种基于异构图进行视图多层聚合的字幕生成方法及系统,涉及多模态理解技术领域,解决现有技术生成的描述文本缺乏对复杂场景的精确描述能力和语义连贯性,难以准确表达出图像中的细节与逻辑关系的技术问题;本发明包括步骤A:从图像中提取实体层次特征和关系层次特征;步骤B:构建异构图,将实体层次特征与异构图结合,而后提取异构图结构特征,再将异构图结构特征与关系层次特征融合得到多模态融合特征;步骤C:对历史文本序列以及多模态融合特征进行处理得到最佳字幕描述;本发明能够更好地保持和增强各个模态的特征表达,特别是在处理复杂场景时,该机制能够更准确地捕捉视觉元素之间的关系,生成更加准确和细致的描述。
技术关键词
字幕生成方法 节点特征 异构 融合特征 注意力 关系 矩阵 融合局部特征 实体 跨模态 图像 序列 模态特征 解码器 多层次特征提取 多模态 文本特征向量
系统为您推荐了相关专利信息
1
一种基于雷达回波图和注意力增强的短临降雨预测方法
递归神经网络模型 降雨预测方法 注意力 训练集 样本
2
基于机器学习的电力机车故障预警方法
故障类别 时序 电力机车故障 故障特征 编码向量
3
一种基于语义和细节协作的弱监督指向性分割方法
跨模态 语义 分割方法 模态特征 文本编码器
4
一种聘用式密度聚类方法及系统
节点特征 密度聚类方法 人脸特征 基准特征 层级
5
基于分布估计算法与残差网络的畜禽行为模式异常识别方法
分布估计算法 异常识别方法 残差神经网络 残差网络 加速度
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号