一种基于多模态大模型的场景感知和交互方法及系统

AITNT
正文
推荐专利
一种基于多模态大模型的场景感知和交互方法及系统
申请号:CN202510363859
申请日期:2025-03-26
公开号:CN120347789A
公开日期:2025-07-22
类型:发明专利
摘要
本发明公开了一种基于多模态大模型的场景感知和交互方法及系统,属于机器人技术领域,该方法的实现包括以下步骤:通过视觉传感器采集场景中的图片信息;将所述图片信息输入多模态大模型,获取场景语义信息;基于所述场景语义信息,对场景进行感知;将当前场景语义信息与预设交互条件进行比对,判定是否需要进行环境交互;当满足交互条件时,执行相应的交互行为。本发明解决了单一模态感知的局限性,提升了机器人的智能化交互能力,并显著提高了机器人在动态环境中的响应速度。
技术关键词
多模态 交互方法 场景 语义 特征提取模型 机器可读程序 大语言模型 视觉传感器 图片 机器人系统 动态物体 机器运行状态 交互内容 计算机 机器人技术 机械臂 交互装置 交互系统
系统为您推荐了相关专利信息
1
语音处理模型的训练方法、语音处理方法、装置及设备
语音编码 语音特征 语义 样本 文本
2
一种基于多模态生理数据的抑郁症状评估方法及系统
风险评估模型 多模态生理 深度神经网络模型训练 情境场景 动态优化系统
3
一种融合血管引导和自适应变形注意的增强型Swin-Unet肝脏肿瘤分割方法与系统
肝脏肿瘤分割方法 血管 多模态医学影像 校正算法 拓扑图
4
一种基于图像掩蔽修复表征的面料检索方法
图像掩蔽 面料检索方法 相似性度量方法 图像检索数据库 高层语义特征
5
根管治疗医生预备过程优化系统、优化方法与存储产品
建议生成方法 旋转马达 数据存储器 时间段 电压传感器
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号