摘要
本申请属于电数字数据处理技术领域,具体而言涉及一种高速公路视频数据的链式思维增强多模态空间推理方法,包括获取高速公路视频数据;通过二维视觉编码器提取高速公路视频数据中的语义特征,通过三维几何编码器提取高速公路视频数据中的几何特征,融合语义特征和几何特征,形成增强视觉特征序列;基于增强的视觉特征序列和语言任务指令引导生成链式推理轨迹:构造由视觉信息、语言任务指令、完整推理轨迹和最终答案形成的数据集,基于数据集对预训练视觉语言模型进行微调;通过群体相对策略优化对预训练视觉语言模型进行强化学习,优化推理过程;基于推理轨迹生成结构化的推理路径、可视化的中间判断信息以及最终的交通行为决策建议。
技术关键词
推理方法
视觉特征
多模态
视频
图像块
语义特征
数据
融合语义
轨迹
编码器
序列
答案
指令
车载摄像头
策略
自然语言
系统为您推荐了相关专利信息
移动终端情景模式
地理位置信息
深度学习模型训练
样本
上存储计算机程序
MEMS设备
帕金森
角速度信息
导航坐标系
IMU传感器
网络单元
开放式网络
多模态
Softmax函数
集群