摘要
本发明公开了一种基于多模态大模型的场景感知和交互方法及系统,属于机器人技术领域,该方法的实现包括以下步骤:通过视觉传感器采集场景中的图片信息;将所述图片信息输入多模态大模型,获取场景语义信息;基于所述场景语义信息,对场景进行感知;将当前场景语义信息与预设交互条件进行比对,判定是否需要进行环境交互;当满足交互条件时,执行相应的交互行为。本发明解决了单一模态感知的局限性,提升了机器人的智能化交互能力,并显著提高了机器人在动态环境中的响应速度。
技术关键词
多模态
交互方法
场景
语义
特征提取模型
机器可读程序
大语言模型
视觉传感器
图片
机器人系统
动态物体
机器运行状态
交互内容
计算机
机器人技术
机械臂
交互装置
交互系统
系统为您推荐了相关专利信息
风险评估模型
多模态生理
深度神经网络模型训练
情境场景
动态优化系统
肝脏肿瘤分割方法
血管
多模态医学影像
校正算法
拓扑图
图像掩蔽
面料检索方法
相似性度量方法
图像检索数据库
高层语义特征
建议生成方法
旋转马达
数据存储器
时间段
电压传感器