摘要
本申请公开了一种办公模型的训练方法,涉及办公模型训练技术领域,包括预先构建目标输出集,包括对应训练样本指令的目标推理输出;还会预先设置多个预设奖励因子。以当办公模块基于多模态的训练样本指令输出其当前的真实推理输出时,可以分析真实推理输出与目标推理输出二者是否匹配,自多个预设奖励因子中选择与匹配结果适配的预设奖励因子,作为奖励信号以迭代办公模型,以有效简化对办公模型进行强化微调的过程。解决了语义一致性较差以及办公模型训练任务繁重的技术问题,达到了在降低办公模型训练负担的同时保障多模态的语义一致性的技术效果。
技术关键词
数据处理方法
办公系统
因子
指令
模型训练技术
信号
输入模块
客户端
可读存储介质
多模态
噪声数据
图像匹配
格式
语义
计算机
图谱
术语
负担
系统为您推荐了相关专利信息
大语言模型
数据获取单元
智能系统
数据处理技术
在线
便携式地面站
应急系统
卫星遥测数据
成像窗口
影像
调度分配方法
拉丁超立方采样
蒙特卡洛仿真方法
评估指标体系
匈牙利算法