摘要
本发明涉及多模态密集字幕生成技术领域,尤其涉及基于异构图卷积增强的多模态密集字幕生成方法及系统,所述方法包括:获取图像数据,通过多模态编码器提取图像中感兴趣区域的视觉特征及位置编码;基于区域特征和位置编码构建多模态异构图,定义空间关系、语义关系和跨模态交互三种边类型;采用分层异构图卷积网络进行多轮消息传递与特征聚合,生成增强特征;将增强特征输入上下文关系建模模块,生成包含丰富上下文信息的表示;并通过文本解码器生成密集字幕,系统包括数据获取模块、异构图构建模块、特征聚合模块和字幕生成模块。本发明能够提升多模态异构交互能力,生成字幕语义准确性高,可应用于自动驾驶、虚拟助手、智能媒体分析等场景。
技术关键词
字幕生成方法
异构
多模态
关系建模
感兴趣区域边界
节点特征
数据获取模块
语义
视觉特征
编码器
解码器
注意力
计算机可执行程序
图像
邻居
系统为您推荐了相关专利信息
人工智能模型
人机交互方法
多模态会话
摘要
指令
特征提取方法
热点检测
图像
密度聚类算法
同位素
敏感信息识别
合规性
人工智能模型
生成对抗网络
策略
产量预测方法
回归预测模型
牡蛎肉
多层感知机
多模态