一种面向视觉语言慢思考推理的半离线策略强化学习方法

AITNT
正文
推荐专利
一种面向视觉语言慢思考推理的半离线策略强化学习方法
申请号:CN202510875585
申请日期:2025-06-27
公开号:CN120781972A
公开日期:2025-10-14
类型:发明专利
摘要
本发明涉及一种面向视觉语言慢思考推理的半离线策略强化学习方法,旨在解决当前大规模视觉语言模型(LVLM)在复杂多模态任务中的推理能力不足的问题,发明涉及可扩展的半离线策略强化学习(SOPHIA)框架,包括构建结合在线策略视觉理解与离线策略推理的半离策略行为模型、设计视觉与推理奖励的回传与分配机制以及基于视觉和推理奖励的离线策略优化方法三部分。与现有技术相比,本发明系统性提升LVLM的视觉慢思考推理能力,同时克服现有方法在视觉理解一致性与推理泛化能力方面的不足,提升LVLM的视觉慢思考推理能力。
技术关键词
强化学习方法 视觉 离线 轨迹 策略优化方法 答案 样本 图像结构 大语言模型 信号 电子设备 程序 可读存储介质 多模态 文本 存储器 在线 数据
系统为您推荐了相关专利信息
1
基于虚拟专用网络隧道进行报文传输的方法和电子设备
虚拟专用网络 重传时间间隔 报文 二层隧道协议 现场监控单元
2
一种SmartGo引导型智慧购物车识别系统
识别系统 图形用户界面单元 智能购物车 可视化管理平台 运动控制模块
3
一种基于机器视觉的智能眼镜环境感知方法及系统
环境感知方法 三维环境地图 智能眼镜 立体图像数据 语义标签
4
一种基于视觉大模型的交互式桥梁点云语义分割方法
点云语义分割方法 桥梁 生成提示信息 三维点云分割 视觉
5
一种用于工地的智能安全监管方法及系统
安全监管方法 神经网络模型 监控设备 曲线 工地
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号