摘要
本申请涉及一种基于检索增强生成和思维链技术的视觉推理方法,包括:对输入的原始图像进行预处理,并将预处理后的原始图像划分为多个感兴趣区域;对输入的问题进行分词和词嵌入,得到问题特征表示;用思维链技术对每个感兴趣区域进行逐步推理,并将得到的各推理文本按序组合生成多步推理文本;采用检索增强生成技术基于问题和多步推理文本在外部知识库中进行检索,得到知识片段;将多步推理文本与知识片段一同输入至优化后的生成模型,得到初步推理结果;采用BERT预训练模型检验初步推理结果的逻辑一致性,检验合理后通过BERT预训练模型对初步推理结果进行精简,得到最终推理结果。该方法能够有效提高视觉推理模型的准确性和稳定性。
技术关键词
文本特征向量
图像特征向量
推理方法
感兴趣
生成技术
损失函数优化
视觉
注意力
分词
图像块
检索方法
矩阵
逻辑
样本
编码
标记
表达式
序列
系统为您推荐了相关专利信息
商品特征
商品管理系统
词嵌入向量
大语言模型
关键词
数据交互模块
特征提取模块
融合特征
远程视频监测
节点