摘要
本申请公开了一种智能体及其室内导航方法、设备、介质及产品,涉及导航控制领域。该方法包括:采用视觉语言模型,并利用检索增强生成策略构建室内场景多模态知识库;获取用户指令和室内环境图像;基于用户指令和室内环境图像从室内场景多模态知识库检索得到位置信息;基于位置信息匹配导航策略算法并更新验证室内场景多模态知识库,匹配信息准确性。本申请能够理解包括自然语言和图像在内的多模态指令并进行精确导航。
技术关键词
室内导航方法
语音识别单元
多模态
定位单元
场景
指令
检索策略
视觉
处理单元
三元组
图像编码器
处理器
计算机程序产品
文本
数据
自然语言
计算机设备
载体
系统为您推荐了相关专利信息
雷达
功率检测功能
检测信噪比
速度检测功能
过零检测
对话式广告
大语言模型
文本
生成脸部图像
模块制作方法
坐标
交通场景图像
双通道注意力
生成算法
卷积模块
虚拟仿真测试
风险等级评估方法
资产
概念设计阶段
网络