一种基于Agent和多模态理解的智能空间解决方法

正文

推荐专利

申请号：CN202411951868

申请日期：2024-12-27

公开号：CN119781742A

公开日期：2025-04-08

类型：发明专利

摘要

一种基于Agent和多模态理解的智能空间解决方法，以大语言模型作为核心的智能Agent，结合多模态大模型对图像和文本进行综合分析，其中大语言模型和多模态大模型皆可直接使用开源或针对空间场景微调，本发明通过大语言模型Agent将用户指令分配到相应的功能模块，结合多模态大模型完成复杂任务，显著提高了任务处理的效率、准确性和灵活性，支持如空间场景理解、目标距离估计、物品统计、行为识别等多功能协作，满足了多场景应用需求。

技术关键词

大语言模型多模态功能模块场景距离估计深度估计算法文本识别唤醒词指令语音识别模块后台数据库可视化界面图像设备控制预警模块自然语言控制设备麦克风

一种基于Agent和多模态理解的智能空间解决方法

站点导航

APP 下载