摘要
一种基于多模态大语言模型的交互式车辆轨迹预测方法,它属于车辆轨迹预测技术领域。本发明解决了车辆轨迹预测结果的准确性差的问题。本发明利用图像编码器对地图进行编码,利用文本编码器对各个运动对象的当前状态以及各个运动对象之间的交互信息进行特征提取,并在共享嵌入空间中进行特征融合,实现地图与文本信息的高效融合,增强环境感知能力。将融合后的多模态场景语义表示输入至多模态大语言模型,大语言模型能够捕捉多车之间的复杂交互关系,就可以完成从场景到行为的生成映射,输出结果为每个车辆的行为描述,进而根据车辆的行为得到轨迹预测结果。本发明方法可以应用于交互式车辆轨迹预测。
技术关键词
交互式车辆
大语言模型
轨迹预测方法
嵌入特征
图像编码器
多模态
文本编码器
对象
语义特征
运动特征
地图
多层感知机
车辆轨迹预测技术
矩阵
场景
非机动车
注意力机制
系统为您推荐了相关专利信息
数据处理流水线
手语
手势
广角镜头
双光谱成像系统
模型联合训练方法
多模态交互
编码器
解码器
训练样本数据
大语言模型
智能规划方法
文本
废旧零部件
数学模型