摘要
本发明公开了一种基于插件和多智能体协同的大模型对齐方法,该方法包括:首先输入用户查询获取大语言模型生成初步响应;接着,通过意图识别检测查询是否包含恶意内容,如有则进入有害性检查,由道德、法律和判官智能体协作判断内容的安全性。之后再对大语言模型生成进行事实检查、利用插件验证内容的真实性、以及有用性识别。当所有检查均通过时,直接输出初始内容作为最终对齐后的响应;否则,将未通过的理由拼接后反馈至大语言模型重新生成内容作为对齐后的响应。本发明提升了大语言模型生成内容的质量。
技术关键词
大语言模型
意图识别
对齐方法
插件
识别用户意图
BERT模型
样本
数据
标签
人类
指令