摘要
本申请涉及人工智能技术领域,提出一种多智能体协同的多模态推理方法、装置、电子设备和计算机程序产品。该方法设置了文本推理智能体、视觉理解智能体和判断型智能体共三个智能体,其中,文本推理智能体主导整体的文本逻辑推理,视觉理解智能体负责提供视觉语义信息,判断型智能体负责评估多模态推理的过程是否需要补充额外的视觉语义信息,并在需要补充的情况下触发视觉信息补充流程,引导视觉理解智能体提取所需补充的视觉语义信息。利用三个智能体的协同工作,形成了多模态推理、补充判断和信息补充的闭环机制,在无需执行复杂预处理流程的基础上,能够对多模态文档进行深度语义理解和逻辑推理,从而实现准确、完整的文档理解与答复文本生成。
技术关键词
多模态
视觉
文本
图像
多智能体协同
推理方法
语义
缓存页面
计算机程序产品
电子设备
列表
指令
推理装置
人工智能技术
曲线
处理器
模块
存储器
序列
系统为您推荐了相关专利信息
广告推送方法
画像
序列
计算机程序指令
分词模型
资源管理系统
协同过滤算法
多标签
标签体系
构建索引库
图像识别方法
生成数据集
椒盐噪声
卷积特征
复杂度
配置生成方法
生成系统
解析单元
数据可视化模型
参数
智能模型
预训练模型
生成时序数据
注意力机制
多模态传感器