一种基于大语言模型和强化学习的文本去毒方法

正文

推荐专利

申请号：CN202510816773

申请日期：2025-06-18

公开号：CN120671681A

公开日期：2025-09-19

类型：发明专利

摘要

本发明公开了一种基于大语言模型和强化学习的文本去毒方法，其特点是该方法具体包括：1）利用构建的平行数据集对开源7B语言模型进行低秩适应的有监督微调，使其具有初始去毒能力；2）设计奖励函数，对生成文本的毒性程度与语义保留能力进行打分；3）从原始数据集中提取仅含有毒文本的未标注数据，基于奖励模型提供的奖励信号，采用群体相对策略优化方法继续训练模型，使其在无监督数据上也能有效学习去毒策略等步骤。本发明与相应技术相比具有保证语义保留的同时增强了模型的泛化能力、去毒效果高、鲁棒性好和数据利用效率高的优点，应用前景良好。

技术关键词

去毒方法大语言模型微调机制平行语料数据策略优化方法预训练语言模型强化学习策略适配器样本文本分类器 BERT模型条带指令小规模语义层面

系统为您推荐了相关专利信息

基于大语言模型增强的浏览器过程间通信模块的模糊测试方法、装置、设备及存储介质

模糊测试方法大语言模型语义参数自定义数据类型

一种火电生产设备故障原因诊断方法及系统

故障原因诊断方法故障诊断模型火电厂设备专家知识库故障原因诊断系统

获取训练样本的方法、装置、介质、设备及产品

大语言模型答案指令计划编辑

火电厂设备故障预警方法、装置和计算机设备

知识图谱模型火电厂设备故障大语言模型预警方法数据

一种基于大语言模型的养老机器人对话方法及系统

养老机器人大语言模型加密数据对话方法构建用户画像

一种基于大语言模型和强化学习的文本去毒方法

站点导航

APP 下载