摘要
本发明涉及一种基于DPO的医疗大模型及其应用,医疗大模型以数据前处理模块收集并处理数据、基于数据获取医疗大模型的输入和输出间的映射关系,偏好校准模块则基于DPO优化数据前处理模块、调节医疗大模型的模型参数,以反馈优化模块建立医疗偏好对齐质量评估策略和偏好对齐优化策略;医疗大模型可应用于医疗诊断问答系统。本发明解决现有医疗大模型的偏好对齐问题,提升医疗大模型的精准度和效率,通过直接优化语言模型,避免传统RLHF中的奖励模型构建和强化学习步骤,以更好地满足人类偏好。
技术关键词
梯度下降算法
数据
问答系统
模块
模糊神经网络
序列
策略
校准
人类
答案
参数
指标
定义
决策
校正
编码
关系
文本
格式
数值
系统为您推荐了相关专利信息
多模态深度
估计方法
MIMO接收机
DOA估计
辐射源
动态决策系统
销售方
渠道
深度强化学习算法
深度强化学习技术
附加阻尼控制器
风电机组输出功率
引力搜索算法
广义
建立风电机组