基于多模态大语言模型的长期动作预测方法及相关装置

AITNT
正文
推荐专利
基于多模态大语言模型的长期动作预测方法及相关装置
申请号:CN202411522635
申请日期:2024-10-29
公开号:CN119417859A
公开日期:2025-02-11
类型:发明专利
摘要
本发明提供基于多模态大语言模型的长期动作预测方法及相关装置,包括:对视频根据固定的采样率进行抽帧处理,预测出所有视频帧对应的文本动作标签;将文本动作标签输入多模态大语言模型,得到文本特征、视觉特征以及预设的动作查询特征;构建跨模态交互网络架构,将文本特征、视觉特征以及预设的动作查询特征作为输入,得到不同模态交互后的特征表达;基于不同模态交互后的特征表达基于动作调优模块得到动作调优的输出结果,然后训练多模态大语言模型,利用损失函数对网络进行优化求解,得到预测结果。
技术关键词
动作预测方法 大语言模型 多模态 查询特征 视觉特征 文本 交互网络 跨模态 采样率 视频帧 图像分类模型 交互注意力 标签 动作预测系统 高维向量空间 注意力机制 更新网络参数 模块 数据
系统为您推荐了相关专利信息
1
一种基于云机混合智能驱动的多机器人协同系统
多机器人路径规划 无线通信协议 协同系统 云端 智能工厂
2
CO2敏感波段卫星高光谱大气辐射传输过程模拟方法及装置
气体吸收系数 气溶胶光学厚度 气溶胶参数 气溶胶粒径分布 卫星高光谱
3
一种基于可信数据空间的风险评估方法、装置及相关设备
风险评估方法 数据 指标 大语言模型 特征值
4
一种多模态消防灭火四足机器人
四足机器人 配重块 伸缩喷头 灭火喷枪 红外热成像仪
5
一种基于AIGC图像生成的医疗数据集构建方法
数据集构建方法 医学影像特征 病变特征 分层特征 解剖学结构
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号