一种基于多模态大模型的场景感知和交互方法及系统

正文

推荐专利

申请号：CN202510363859

申请日期：2025-03-26

公开号：CN120347789A

公开日期：2025-07-22

类型：发明专利

摘要

本发明公开了一种基于多模态大模型的场景感知和交互方法及系统，属于机器人技术领域，该方法的实现包括以下步骤：通过视觉传感器采集场景中的图片信息；将所述图片信息输入多模态大模型，获取场景语义信息；基于所述场景语义信息，对场景进行感知；将当前场景语义信息与预设交互条件进行比对，判定是否需要进行环境交互；当满足交互条件时，执行相应的交互行为。本发明解决了单一模态感知的局限性，提升了机器人的智能化交互能力，并显著提高了机器人在动态环境中的响应速度。

技术关键词

多模态交互方法场景语义特征提取模型机器可读程序大语言模型视觉传感器图片机器人系统动态物体机器运行状态交互内容计算机机器人技术机械臂交互装置交互系统

系统为您推荐了相关专利信息

语音处理模型的训练方法、语音处理方法、装置及设备

语音编码语音特征语义样本文本

一种基于多模态生理数据的抑郁症状评估方法及系统

风险评估模型多模态生理深度神经网络模型训练情境场景动态优化系统

一种融合血管引导和自适应变形注意的增强型Swin-Unet肝脏肿瘤分割方法与系统

肝脏肿瘤分割方法血管多模态医学影像校正算法拓扑图

一种基于图像掩蔽修复表征的面料检索方法

图像掩蔽面料检索方法相似性度量方法图像检索数据库高层语义特征

根管治疗医生预备过程优化系统、优化方法与存储产品

建议生成方法旋转马达数据存储器时间段电压传感器

一种基于多模态大模型的场景感知和交互方法及系统

站点导航

APP 下载