一种基于强化学习微调的大型语言模型优化方法

AITNT
正文
推荐专利
一种基于强化学习微调的大型语言模型优化方法
申请号:CN202511024220
申请日期:2025-07-24
公开号:CN120911540A
公开日期:2025-11-07
类型:发明专利
摘要
本发明涉及大型语言模型技术领域,公开了一种基于强化学习微调的大型语言模型优化方法,包括:采集目标模型交互得到的优势值,以大小为T×B的优势矩阵;依据预设窗口对优势矩阵从时间维度进行分割处理,形成m个分片;依据m个分片分别确定优势矩阵的源分布,以及构建代价矩阵;基于源分布和代价矩阵,确定大小为m×m的传输矩阵;基于传输矩阵确定第p个分片的净能量搬运量;根据第p个分片的净能量搬运量、优势矩阵和预设窗口,对优势矩阵进行更新处理,得到更新优势矩阵;基于更新优势矩阵计算损失值,以损失值执行反向传播,更新目标模型。
技术关键词
语言模型优化方法 矩阵 分片 元素 变量 总量 语言模型技术 指数 策略 参数
系统为您推荐了相关专利信息
1
一种基于多模态数据融合、区域划分的森林火灾温度误差在线补偿方法、系统及存储介质
多模态数据融合 在线补偿方法 红外热像仪 可见光图像 惯导坐标系
2
一种拖动者助力者系统的分散式协作搬运方法
搬运方法 助力 信息数据处理终端 轨迹 机器人
3
一种基于强化学习的前置仓分拣线路规划方法
线路规划方法 前置仓 神经网络参数 货架 栅格
4
一种基于大语言模型的汽车行业知识库构建方法及系统
知识库构建方法 大语言模型 问答类网站 文本关键词提取 道路交通法规
5
一种基于LDPC的译码方法、装置及电子设备
译码方法 拉格朗日 LDPC译码 度量 译码码字
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号