摘要
本发明公开了一种基于评价反馈强化学习的错误抑制防护方法、系统及存储介质,涉及自然语言处理领域,接收初始输入序列和相关材料,基于特定于任务的生成提示生成初始输出;基于评价指标,使用显式模型比较初始输出和正确事实,得到量化的质量评价;使用语言大模型生成各评价指标对应的大模型易理解的评价反馈;使用语言大模型生成新的输出,并将新的输出作初始输出,进行迭代直到评价指标满足要求,生成改进输出。本发明旨在解决现有生成式人工智能模型面临的易生成虚假信息和引用不准确的问题,从多个评价维度生成自然语言反馈,不断迭代优化模型,提高生成式人工智能的可靠性和安全性,为生成式人工智能的高可靠性应用提供全新思路和技术支持。
技术关键词
防护方法
指标
序列
生成方法
输出模块
生成自然语言
人工智能模型
全新思路
防护系统
阶段
计算机
度量
对象
定义
系统为您推荐了相关专利信息
数据采集系统
远程管理终端
传感监测系统
远程监控中心
数据处理系统
移动拍摄设备
场景
安全帽检测方法
注意力
像素块
学习资源推荐方法
鸽群算法
个性化特征
资源推荐模型
知识点
边坡变形监测
岩土工程稳定性
实时监测数据
三维地质模型
预警系统
三电平
模型预测控制策略
混合结构
网侧电流
逆变器开路故障