摘要
本发明提供基于多模态大语言模型的长期动作预测方法及相关装置,包括:对视频根据固定的采样率进行抽帧处理,预测出所有视频帧对应的文本动作标签;将文本动作标签输入多模态大语言模型,得到文本特征、视觉特征以及预设的动作查询特征;构建跨模态交互网络架构,将文本特征、视觉特征以及预设的动作查询特征作为输入,得到不同模态交互后的特征表达;基于不同模态交互后的特征表达基于动作调优模块得到动作调优的输出结果,然后训练多模态大语言模型,利用损失函数对网络进行优化求解,得到预测结果。
技术关键词
动作预测方法
大语言模型
多模态
查询特征
视觉特征
文本
交互网络
跨模态
采样率
视频帧
图像分类模型
交互注意力
标签
动作预测系统
高维向量空间
注意力机制
更新网络参数
模块
数据
系统为您推荐了相关专利信息
多机器人路径规划
无线通信协议
协同系统
云端
智能工厂
气体吸收系数
气溶胶光学厚度
气溶胶参数
气溶胶粒径分布
卫星高光谱
四足机器人
配重块
伸缩喷头
灭火喷枪
红外热成像仪
数据集构建方法
医学影像特征
病变特征
分层特征
解剖学结构