基于异构图卷积增强的多模态密集字幕生成方法及系统

AITNT
正文
推荐专利
基于异构图卷积增强的多模态密集字幕生成方法及系统
申请号:CN202510951902
申请日期:2025-07-10
公开号:CN120783328A
公开日期:2025-10-14
类型:发明专利
摘要
本发明涉及多模态密集字幕生成技术领域,尤其涉及基于异构图卷积增强的多模态密集字幕生成方法及系统,所述方法包括:获取图像数据,通过多模态编码器提取图像中感兴趣区域的视觉特征及位置编码;基于区域特征和位置编码构建多模态异构图,定义空间关系、语义关系和跨模态交互三种边类型;采用分层异构图卷积网络进行多轮消息传递与特征聚合,生成增强特征;将增强特征输入上下文关系建模模块,生成包含丰富上下文信息的表示;并通过文本解码器生成密集字幕,系统包括数据获取模块、异构图构建模块、特征聚合模块和字幕生成模块。本发明能够提升多模态异构交互能力,生成字幕语义准确性高,可应用于自动驾驶、虚拟助手、智能媒体分析等场景。
技术关键词
字幕生成方法 异构 多模态 关系建模 感兴趣区域边界 节点特征 数据获取模块 语义 视觉特征 编码器 解码器 注意力 计算机可执行程序 图像 邻居
系统为您推荐了相关专利信息
1
基于异步艺术创作的人机交互方法、系统、设备及介质
人工智能模型 人机交互方法 多模态会话 摘要 指令
2
基于质谱图像的危化品特征提取方法、装置、终端及介质
特征提取方法 热点检测 图像 密度聚类算法 同位素
3
一种数据智能治理方法、系统及存储介质
敏感信息识别 合规性 人工智能模型 生成对抗网络 策略
4
电动汽车智能网联通信与边缘计算优化方法
智能网 拓扑图 多模态 无线通信网络 系统级
5
一种基于多模态融合的牡蛎肉产量预测方法
产量预测方法 回归预测模型 牡蛎肉 多层感知机 多模态
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号