摘要
本发明公开了一种基于多模态大语言模型的工地安监智能体系统,包括多模态融合模块、任务解析模块及混合执行引擎。多模态融合模块提取图像/视频、声学等多模态特征,经投影层对齐至LLM语义空间;任务解析模块解析对齐特征生成任务图(节点为子任务、边为依赖关系);混合执行引擎通过门控注意力机制,依据任务图动态融合特征并驱动子任务执行。本发明通过多模态与LLM深度融合实现跨模态语义对齐,任务图结构化解析提升复杂任务理解能力,门控注意力动态调配特征资源,增强系统执行效率与灵活性,适用于智能机器人、智能家居等场景的空间任务自动化处理,为构建多模态交互与自主决策的智能体提供高效方案。
技术关键词
智能体系统
大语言模型
安监
工地
视觉特征编码
复杂度
音频特征
模态特征
模块
云端
适配器
语义
视频帧特征
多模态交互
跨模态
音频编码器
决策
文本
系统为您推荐了相关专利信息
自动化工具
自动收集方法
验证码图像
页面
数据格式
农业病虫害
检索策略
问答方法
语义向量
大语言模型
问答模型
微调方法
矩阵
前馈神经网络
注意力机制