摘要
本公开提供了一种多模态数据生成方法,涉及人工智能技术领域,尤其涉及计算机视觉、深度学习、大模型技术领域,具体涉及一种视觉智能体,该视觉智能体集成有视觉专家模型、多模态大模型以及大语言模型,可应用于AIGC(AI‑Generated Content)、人机交互等场景。具体实现方案为:根据来自目标对象的输入内容,确定目标对象的意图;响应于输入内容包括图像,根据意图,从视觉专家模型库中选取视觉专家模型,对图像进行处理,得到视觉专家结果;根据意图,从多模态模型库中选取多模态模型,基于视觉专家结果,对输入内容进行多模态处理,得到多模态处理结果;以及根据视觉专家结果和多模态处理结果,生成输出内容。
技术关键词
多模态
视觉
模型库
意图
大语言模型
数据生成方法
文本
模态特征
规划
图像处理
对象
数据生成系统
数据生成装置
模块
视频
电子设备
处理器
处理单元
人工智能技术
系统为您推荐了相关专利信息
身体健康数据
管理方法
体重
数据采集设备
特征值
织带
瑕疵检测系统
数据分析模块
瑕疵检测方法
边缘检测
混凝土温湿度
异常事件
梁场
特征提取模型
关键工艺参数