摘要
本发明涉及一种面向视觉语言慢思考推理的半离线策略强化学习方法,旨在解决当前大规模视觉语言模型(LVLM)在复杂多模态任务中的推理能力不足的问题,发明涉及可扩展的半离线策略强化学习(SOPHIA)框架,包括构建结合在线策略视觉理解与离线策略推理的半离策略行为模型、设计视觉与推理奖励的回传与分配机制以及基于视觉和推理奖励的离线策略优化方法三部分。与现有技术相比,本发明系统性提升LVLM的视觉慢思考推理能力,同时克服现有方法在视觉理解一致性与推理泛化能力方面的不足,提升LVLM的视觉慢思考推理能力。
技术关键词
强化学习方法
视觉
离线
轨迹
策略优化方法
答案
样本
图像结构
大语言模型
信号
电子设备
程序
可读存储介质
多模态
文本
存储器
在线
数据
系统为您推荐了相关专利信息
虚拟专用网络
重传时间间隔
报文
二层隧道协议
现场监控单元
识别系统
图形用户界面单元
智能购物车
可视化管理平台
运动控制模块
环境感知方法
三维环境地图
智能眼镜
立体图像数据
语义标签
点云语义分割方法
桥梁
生成提示信息
三维点云分割
视觉