摘要
本发明涉及人工智能技术领域,提供一种基于奖励机制的报告生成方法、装置、设备及介质,一方面,以相关性、流畅性、多样性、长度控制、安全性、位次描述及术语使用率为奖惩维度构建奖励模型,能够从多维度提升报告质量;另一方面,采用直接偏好优化算法,基于问答对及奖励模型对非推理模型进行强化训练,并利用监督微调算法基于标注训练集进行模型微调,能够在第一阶段基于直接偏好优化算法使非推理模型具备思考能力,生成的思考链能够提高报告生成过程的逻辑性及条理性,在第二阶段通过监督微调算法能够对模型输出进一步优化,确保生成报告符合专业标准,在基于直接偏好优化算法提升生成效率并降低运算成本的同时,还提升了生成报告的质量。
技术关键词
报告生成方法
报告生成装置
机制
生成指令
术语
算法
计算机设备
生成报告
训练集
可读存储介质
微调单元
矩阵
人工智能技术
表格
数据
解析单元
关系
参数
系统为您推荐了相关专利信息
植物抗逆基因
生物信息分析技术
筛选方法
轨迹模型
单细胞转录组
运动补偿装置
PID控制器
涡流
压电陶瓷组件
交叉滚子导轨
升级方法
生成特征
计算机可执行指令
工业自动化系统
系统日志
数据生成方法
预训练语言模型
优化训练数据
样本
数据生成系统
模拟开关芯片
激光控制器
MCU芯片
调制电路
输出信号控制系统