摘要
本发明属于人工智能与多模态大模型推理增强技术领域,公开一种基于逐步群组相对策略优化的多模态检索增强生成方法。引入逐步推理轨迹构建机制,将原始问题拆解为若干子问题,每一步均结合推理历史和当前信息需求自主生成新的检索查询并选择最合适的知识源进行证据检索;推理过程中每一步决策和答案均获得细粒度奖励信号。本发明采用群组相对策略优化方法,将每个推理步骤的查询质量、知识库路由准确性、答案内容的格式合规性与最终答案的准确性作为逐步奖励联合建模,通过全局和局部多重反馈信号优化模型参数。该方法在多类多模态开放域问答、复杂推理等任务上,显著优于现有同类技术,在答案准确率、检索效率与多模态适应能力等方面均表现出色。
技术关键词
大语言模型
策略优化方法
生成方法
多模态
轨迹
生成答案
损失函数设计
定义
信息检索
决策
格式
合规性
超参数
信号
数据
表格
终点
系统为您推荐了相关专利信息
内容生成系统
视觉
物体运动轨迹
改进型LRU算法
生成控制器
代码切片
大语言模型
生成方法
单元测试方法
生成提示词
AR眼镜
智能系统
柔性电极阵列
超表面
骨传导麦克风