摘要
本申请公开了一种长文本训练数据生成方法、相关装置及计算机程序产品,涉及人工智能领域,本申请首先获取长文本源数据,而后利用大语言模型的生成能力生成长文本源数据的相关问题和对应答案,并基于所生成的各答案之间的相似度进行答案自我一致性校验,确定出可信度最高的答案,作为最终答案,再利用长文本源数据、相关问题和对应的最终答案生成长文本训练数据,实现了长文本训练数据生成任务,提高了适用于长文本处理任务的训练数据配置效率和质量,为优化大模型在长文本处理任务上的模型性能提供基础。
技术关键词
训练数据生成方法
答案
计算机程序产品
关键词
编码向量
数据生成装置
数据获取单元
大语言模型
文本识别
处理器
字符
切片
可读存储介质
语音
存储器
电子设备
词语
系统为您推荐了相关专利信息
破损纸币
图像识别模型
二值化图像
识别方法
图像拼接
功率谱特征
电力设备缺陷
图谱特征
音频
特征提取网络
编码向量
网络安全态势感知
跨模态
语义特征
网络流量数据
结节检测方法
CT数据集
客户端
更新模型参数
加权平均法