摘要
本发明涉及人工智能领域,可应用于金融科技、医疗健康等业务系统平台中,公开了基于动态多模态的视频理解方法、装置、设备及介质,包括:获取待理解的视频数据;对视频数据进行视觉编码处理,得到相应的视觉特征;对视频数据进行非视觉的多模态编码处理,得到若干项非视觉特征;根据视觉特征和若干项非视觉特征进行动态的多模态注意力调制,获得动态的注意力权重分布;根据动态的注意力权重分布和视觉特征进行调制解码,生成视频数据的视频描述文本。通过整合视觉特征与多种非视觉特征进行动态的多模态注意力调制后进行解码处理,使得解码生成视频描述文本时可以更好的适应视频内容与其他辅助模态的动态关联性,提高视频理解与文本描述的准确性。
技术关键词
非视觉特征
视频理解方法
动态
非易失性计算机可读存储介质
融合视觉特征
融合特征
混合编码器
计算机可执行指令
解码
多模态注意力
音频特征
生成视频数据
文本生成器
处理器
系统为您推荐了相关专利信息
液压多路阀阀芯
液压油缸活塞杆
变量
重载机械设备
阀轴
智能设备
规划
障碍物
激光雷达
扩展卡尔曼滤波算法
虚拟节点数量
数据集成方法
物联设备
智慧工地
键值
锂离子电池模组
网卡
均衡方法
电芯单体
动态均衡调节