摘要
本发明公开了一种面向医疗大语言模型的有害回复防御方法及装置,涉及自然语言处理领域,包括:获取用户的输入语句并输入到经训练的改写模型中,输出改写语句;若需要进行检索增强生成,则将改写语句在医学知识库中进行检索,将改写语句与每个医学知识片段拼接并输入到经训练的医疗大语言模型,生成响应语句;结合医学知识片段对每个响应语句进行安全评分计算,得到第一安全评分;判断是否存在第一安全评分大于安全阈值,若是则将第一安全评分最高所对应的响应语句作为回复语句,否则进行筛选,根据筛选结果确定回复语句;将回复语句输入到经训练的判断模型中,将不存在有害内容的回复语句进行输出。本发明解决难以对输入语句有效识别过滤的问题。
技术关键词
大语言模型
医学知识库
关键词
生成回复语句
语义
医学专用
处理器
计算机程序产品
标记
文本
自然语言
识别模块
存储装置
可读存储介质
电子设备
数据
系统为您推荐了相关专利信息
地物识别
识别感兴趣区域
解析方法
标志物
分割方法
资产管理方法
接口特征
DNS解析
网络边界
聚类