摘要
一种基于Agent和多模态理解的智能空间解决方法,以大语言模型作为核心的智能Agent,结合多模态大模型对图像和文本进行综合分析,其中大语言模型和多模态大模型皆可直接使用开源或针对空间场景微调,本发明通过大语言模型Agent将用户指令分配到相应的功能模块,结合多模态大模型完成复杂任务,显著提高了任务处理的效率、准确性和灵活性,支持如空间场景理解、目标距离估计、物品统计、行为识别等多功能协作,满足了多场景应用需求。
技术关键词
大语言模型
多模态
功能模块
场景
距离估计
深度估计算法
文本
识别唤醒词
指令
语音识别模块
后台数据库
可视化界面
图像
设备控制
预警模块
自然语言
控制设备
麦克风