摘要
本发明适用于自动驾驶技术领域,提供了基于3D时空感知与类人决策推理的自动驾驶大模型框架,通过跨模态动态语义补丁嵌入与多尺度链式推理的深度集成,有效提升了自动驾驶系统在复杂场景下的三维时空语义推理能力,实现了全视角场景视频流与全局鸟瞰图的高效协同处理;同时,通过基于规则驱动与语义动作交互的多层次时空语义自适应数据提取范式和语义化动作表征生成,结合跨模态任务导向的多级训练矩阵架构,模型在场景理解、决策透明性和端到端驾驶任务优化方面表现出色。有效提升了系统在动态行为推演的准确率,提高了决策可解释性,为自动驾驶的全局路径规划和类人决策提供了强有力的技术支持。
技术关键词
场景
决策
跨模态
文本编码器
联合损失函数
视觉
交通
动作交互
补丁
动态
层次化语义
生成自然语言
解码器
语义地图
多模态
自动驾驶系统
数据
视频流
系统为您推荐了相关专利信息
人体重识别
特征提取模块
加权特征
标识标签
模型训练方法
爬树机器人
麦克纳姆轮
自动化控制系统
机械臂
机器人主体框架
巡检无人机
邻域搜索算法
巡检路径
重规划方法
多无人机