长文本训练数据生成方法、相关装置及计算机程序产品

正文

推荐专利

申请号：CN202510987255

申请日期：2025-07-17

公开号：CN120804714A

公开日期：2025-10-17

类型：发明专利

摘要

本申请公开了一种长文本训练数据生成方法、相关装置及计算机程序产品，涉及人工智能领域，本申请首先获取长文本源数据，而后利用大语言模型的生成能力生成长文本源数据的相关问题和对应答案，并基于所生成的各答案之间的相似度进行答案自我一致性校验，确定出可信度最高的答案，作为最终答案，再利用长文本源数据、相关问题和对应的最终答案生成长文本训练数据，实现了长文本训练数据生成任务，提高了适用于长文本处理任务的训练数据配置效率和质量，为优化大模型在长文本处理任务上的模型性能提供基础。

技术关键词

训练数据生成方法答案计算机程序产品关键词编码向量数据生成装置数据获取单元大语言模型文本识别处理器字符切片可读存储介质语音存储器电子设备词语

系统为您推荐了相关专利信息

破损纸币识别方法、设备、介质及程序产品

破损纸币图像识别模型二值化图像识别方法图像拼接

一种合规报告生成方法、装置、设备及存储介质

报告生成方法子模块有向无环图模板文件夹

一种声学红外特征融合的电力设备缺陷识别方法及系统

功率谱特征电力设备缺陷图谱特征音频特征提取网络

一种基于大模型的网络安全态势感知预测系统及方法

编码向量网络安全态势感知跨模态语义特征网络流量数据

基于联邦学习与目标检测算法的肺结节检测系统及方法

结节检测方法 CT数据集客户端更新模型参数加权平均法

长文本训练数据生成方法、相关装置及计算机程序产品

站点导航

APP 下载