基于物理运动与外观解耦的视频理解方法、装置和设备

AITNT
正文
推荐专利
基于物理运动与外观解耦的视频理解方法、装置和设备
申请号:CN202511139486
申请日期:2025-08-14
公开号:CN120976835A
公开日期:2025-11-18
类型:发明专利
摘要
本申请提供了一种基于物理运动与外观解耦的视频理解方法、装置和设备,涉及人工智能技术领域,旨在实现对视频的准确理解。该方法包括:对视频帧序列的各个视频帧进行特征提取,得到特征序列;利用双分支编码器对所述特征序列进行解耦,得到外观特征序列和初步运动特征序列,所述初步运动特征序列表征所述视频帧序列各个视频帧的运动特征,所述双分支编码器包括外观编码器和运动编码器;利用神经微分方程建模器根据所述初步运动特征序列,进行帧与帧之间的连续时间运动轨迹建模,得到运动特征序列;将所述运动特征序列、所述外观特征序列、以及用户提示语句,输入大语言模型进行跨模态信息融合和推理,得到所述用户提示语句对应的回答内容。
技术关键词
运动特征 序列 视频理解方法 大语言模型 运动编码器 视频帧 样本 语句 跨模态 分支 轨迹 自然语言 物理 神经网络参数 人工智能技术 注意力机制 模板
系统为您推荐了相关专利信息
1
一种模拟负重MR扫描足踝三维融合模型的获取装置和方法
足踝固定装置 核磁共振仪 穿戴装置 图像处理设备 灰度特征
2
速冻产线多温区能耗动态均衡调度方法
数字孪生模型 强化学习策略 均衡调度方法 制冷机组 功率
3
一种基于多模态大模型的智能语音数据缺陷检测方法
缺陷检测方法 智能语音 答案 多模态 样本
4
一种图像文本描述的生成方法、装置及存储介质
图像 元素 文本 生成方法 节点
5
基于视觉序列的规划方法、装置、设备及介质
视觉 序列 规划 策略 轨迹
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号