基于多模态大语言模型的长期动作预测方法及相关装置

正文

推荐专利

申请号：CN202411522635

申请日期：2024-10-29

公开号：CN119417859A

公开日期：2025-02-11

类型：发明专利

摘要

本发明提供基于多模态大语言模型的长期动作预测方法及相关装置，包括：对视频根据固定的采样率进行抽帧处理，预测出所有视频帧对应的文本动作标签；将文本动作标签输入多模态大语言模型，得到文本特征、视觉特征以及预设的动作查询特征；构建跨模态交互网络架构，将文本特征、视觉特征以及预设的动作查询特征作为输入，得到不同模态交互后的特征表达；基于不同模态交互后的特征表达基于动作调优模块得到动作调优的输出结果，然后训练多模态大语言模型，利用损失函数对网络进行优化求解，得到预测结果。

技术关键词

动作预测方法大语言模型多模态查询特征视觉特征文本交互网络跨模态采样率视频帧图像分类模型交互注意力标签动作预测系统高维向量空间注意力机制更新网络参数模块数据

系统为您推荐了相关专利信息

一种基于云机混合智能驱动的多机器人协同系统

多机器人路径规划无线通信协议协同系统云端智能工厂

CO2敏感波段卫星高光谱大气辐射传输过程模拟方法及装置

气体吸收系数气溶胶光学厚度气溶胶参数气溶胶粒径分布卫星高光谱

一种基于可信数据空间的风险评估方法、装置及相关设备

风险评估方法数据指标大语言模型特征值

一种多模态消防灭火四足机器人

四足机器人配重块伸缩喷头灭火喷枪红外热成像仪

一种基于AIGC图像生成的医疗数据集构建方法

数据集构建方法医学影像特征病变特征分层特征解剖学结构

基于多模态大语言模型的长期动作预测方法及相关装置

站点导航

APP 下载