基于异构图卷积增强的多模态密集字幕生成方法及系统

正文

推荐专利

申请号：CN202510951902

申请日期：2025-07-10

公开号：CN120783328A

公开日期：2025-10-14

类型：发明专利

摘要

本发明涉及多模态密集字幕生成技术领域，尤其涉及基于异构图卷积增强的多模态密集字幕生成方法及系统，所述方法包括：获取图像数据，通过多模态编码器提取图像中感兴趣区域的视觉特征及位置编码；基于区域特征和位置编码构建多模态异构图，定义空间关系、语义关系和跨模态交互三种边类型；采用分层异构图卷积网络进行多轮消息传递与特征聚合，生成增强特征；将增强特征输入上下文关系建模模块，生成包含丰富上下文信息的表示；并通过文本解码器生成密集字幕，系统包括数据获取模块、异构图构建模块、特征聚合模块和字幕生成模块。本发明能够提升多模态异构交互能力，生成字幕语义准确性高，可应用于自动驾驶、虚拟助手、智能媒体分析等场景。

技术关键词

字幕生成方法异构多模态关系建模感兴趣区域边界节点特征数据获取模块语义视觉特征编码器解码器注意力计算机可执行程序图像邻居

系统为您推荐了相关专利信息

基于异步艺术创作的人机交互方法、系统、设备及介质

人工智能模型人机交互方法多模态会话摘要指令

基于质谱图像的危化品特征提取方法、装置、终端及介质

特征提取方法热点检测图像密度聚类算法同位素

一种数据智能治理方法、系统及存储介质

敏感信息识别合规性人工智能模型生成对抗网络策略

电动汽车智能网联通信与边缘计算优化方法

智能网拓扑图多模态无线通信网络系统级

一种基于多模态融合的牡蛎肉产量预测方法

产量预测方法回归预测模型牡蛎肉多层感知机多模态

基于异构图卷积增强的多模态密集字幕生成方法及系统

站点导航

APP 下载