摘要
本发明公开了一种基于大语言模型和强化学习的文本去毒方法,其特点是该方法具体包括:1)利用构建的平行数据集对开源7B语言模型进行低秩适应的有监督微调,使其具有初始去毒能力;2)设计奖励函数,对生成文本的毒性程度与语义保留能力进行打分;3)从原始数据集中提取仅含有毒文本的未标注数据,基于奖励模型提供的奖励信号,采用群体相对策略优化方法继续训练模型,使其在无监督数据上也能有效学习去毒策略等步骤。本发明与相应技术相比具有保证语义保留的同时增强了模型的泛化能力、去毒效果高、鲁棒性好和数据利用效率高的优点,应用前景良好。
技术关键词
去毒方法
大语言模型
微调机制
平行语料数据
策略优化方法
预训练语言模型
强化学习策略
适配器
样本
文本分类器
BERT模型
条带
指令
小规模
语义层面
系统为您推荐了相关专利信息
模糊测试方法
大语言模型
语义
参数
自定义数据类型
故障原因诊断方法
故障诊断模型
火电厂设备
专家知识库
故障原因诊断系统
知识图谱模型
火电厂设备故障
大语言模型
预警方法
数据
养老机器人
大语言模型
加密数据
对话方法
构建用户画像