摘要
本发明属于自然语言处理技术领域,具体涉及一种基于困惑度驱动大语言模型的电网营销数据标注方法、平台和设备。该方法过程如下:S1:针对电网营销领域的具体需求,收集相关的数据,预处理后构成所需的样本数据集;S2:收集与电网营销业务相关的问题,并由大语言模型进行回答构建初始问答对;S3:结合样本数据集对初始问答对进行困惑度检测,并筛选出存在准确性风险的初始问答对;S4:由技术人员对存在准确性风险的初始问答对进行人工审查和修正后构成标注数据,采集大量经人工审查标注的数据,构成于对商用的大语言模型进行重新监督训练的知识库。本发明解决了电网营销的大模型存在模型幻觉,导致工作人员数据标注任务量过大的问题。
技术关键词
电网营销数据
大语言模型
标注方法
答案
调用API接口
身份验证功能
风险
度检测方法
正则化技术
样本
自动编码器
业扩报装
互动设备
平台
随机森林
自然语言
处理器
格式化
文本