基于动态多模态的视频理解方法、装置、设备及介质

AITNT
正文
推荐专利
基于动态多模态的视频理解方法、装置、设备及介质
申请号:CN202510844772
申请日期:2025-06-23
公开号:CN120747814A
公开日期:2025-10-03
类型:发明专利
摘要
本发明涉及人工智能领域,可应用于金融科技、医疗健康等业务系统平台中,公开了基于动态多模态的视频理解方法、装置、设备及介质,包括:获取待理解的视频数据;对视频数据进行视觉编码处理,得到相应的视觉特征;对视频数据进行非视觉的多模态编码处理,得到若干项非视觉特征;根据视觉特征和若干项非视觉特征进行动态的多模态注意力调制,获得动态的注意力权重分布;根据动态的注意力权重分布和视觉特征进行调制解码,生成视频数据的视频描述文本。通过整合视觉特征与多种非视觉特征进行动态的多模态注意力调制后进行解码处理,使得解码生成视频描述文本时可以更好的适应视频内容与其他辅助模态的动态关联性,提高视频理解与文本描述的准确性。
技术关键词
非视觉特征 视频理解方法 动态 非易失性计算机可读存储介质 融合视觉特征 融合特征 混合编码器 计算机可执行指令 解码 多模态注意力 音频特征 生成视频数据 文本生成器 处理器
系统为您推荐了相关专利信息
1
一种基于强化学习的液压多路阀智能轴控方法
液压多路阀阀芯 液压油缸活塞杆 变量 重载机械设备 阀轴
2
智能设备的控制方法、智能设备及计算机可读存储介质
智能设备 规划 障碍物 激光雷达 扩展卡尔曼滤波算法
3
用于智慧工地的多元物联设备数据集成方法
虚拟节点数量 数据集成方法 物联设备 智慧工地 键值
4
一种具有均衡能力的锂离子电池模组及均衡方法
锂离子电池模组 网卡 均衡方法 电芯单体 动态均衡调节
5
基于数据挖掘的云平台运维风险动态决策方法
动态决策方法 风险 顶点 智能运维技术 云平台
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号