摘要
本发明提供一种评阅模型训练方法、评阅方法和装置,其中方法包括:根据第一样本数据集中的第一样本数据,对大型语言模型进行无监督训练,得到第一语言模型;根据第二样本数据集中的第二样本数据和各第二样本数据对应的评分标签和评语标签,对第一语言模型进行有监督训练,得到第二语言模型;根据第三样本数据集中的第三样本数据和各第三样本数据对应的评分标签,对第二语言模型进行强化学习训练,得到评阅模型;第一样本数据集中的样本数据数量和第三样本数据集中的样本数据数量均大于第二样本数据集中的样本数据数量。本发明实现通过少量评语标签即可有效训练出具备较高评阅质量的评阅模型,有效降低了标注成本,同时提高了评阅的质量。
技术关键词
样本
模型训练方法
数据
训练语言模型
评阅方法
标签
无监督
非暂态计算机可读存储介质
模型训练装置
答案
序列
处理器
存储器
电子设备
系统为您推荐了相关专利信息
泄漏监测方法
多模态数据融合
多任务
供水管
特征提取器
标书生成系统
标书生成方法
知识图谱构建
深度学习语言模型
语义关联度
等级评估系统
运动功能评估
运动学特征
脑网络特征
血红蛋白
控制优化方法
动态调整机制
控制优化装置
邻域
控制参数优化方法