摘要
本发明提供一种专家偏好对齐的业务处理方法、装置、设备及介质,该专家偏好对齐的业务处理方法包括:即根据目标业务的提问请求,采用业务答复模型进行处理,得到业务答复结果;业务答复模型的训练步骤包括策略模型的训练和奖励模型的训练,其中策略模型采用知识注入方式进行预训练,并通过训练后的奖励模型基于奖励进行动态知识图谱的专家偏好对齐和优化。本发明的有益效果为:减少专家人工校准次数,维持了策略模型的稳定性,提高了业务问答的准确率和效率。
技术关键词
动态知识图谱
策略
追溯方式
数据
语义
权重分配方法
基座
样本
格式化
标签
双循环
新型故障
注意力
PID控制器
三元组
实体
节点
逻辑