基于动态多模态的视频理解方法、装置、设备及介质

正文

推荐专利

申请号：CN202510844772

申请日期：2025-06-23

公开号：CN120747814A

公开日期：2025-10-03

类型：发明专利

摘要

本发明涉及人工智能领域，可应用于金融科技、医疗健康等业务系统平台中，公开了基于动态多模态的视频理解方法、装置、设备及介质，包括：获取待理解的视频数据；对视频数据进行视觉编码处理，得到相应的视觉特征；对视频数据进行非视觉的多模态编码处理，得到若干项非视觉特征；根据视觉特征和若干项非视觉特征进行动态的多模态注意力调制，获得动态的注意力权重分布；根据动态的注意力权重分布和视觉特征进行调制解码，生成视频数据的视频描述文本。通过整合视觉特征与多种非视觉特征进行动态的多模态注意力调制后进行解码处理，使得解码生成视频描述文本时可以更好的适应视频内容与其他辅助模态的动态关联性，提高视频理解与文本描述的准确性。

技术关键词

非视觉特征视频理解方法动态非易失性计算机可读存储介质融合视觉特征融合特征混合编码器计算机可执行指令解码多模态注意力音频特征生成视频数据文本生成器处理器

系统为您推荐了相关专利信息

一种基于强化学习的液压多路阀智能轴控方法

液压多路阀阀芯液压油缸活塞杆变量重载机械设备阀轴

智能设备的控制方法、智能设备及计算机可读存储介质

智能设备规划障碍物激光雷达扩展卡尔曼滤波算法

用于智慧工地的多元物联设备数据集成方法

虚拟节点数量数据集成方法物联设备智慧工地键值

一种具有均衡能力的锂离子电池模组及均衡方法

锂离子电池模组网卡均衡方法电芯单体动态均衡调节

基于数据挖掘的云平台运维风险动态决策方法

动态决策方法风险顶点智能运维技术云平台

基于动态多模态的视频理解方法、装置、设备及介质

站点导航

APP 下载