摘要
本公开涉及自然语言处理技术领域,公开了一种学术问答模型训练方法、答案生成方法、装置及相关产品;其方法包括:获取开源预训练数据集和学术预训练数据集;学术预训练数据集中的文本数据包含至少一个标签,标签用于表征文本数据中结构化文本的含义;利用开源预训练数据集和学术预训练数据集,对初始问答模型进行训练,得到预训练好的问答模型;获取为下游学术任务构建的指令微调数据集;基于指令微调数据集,对预训练好的问答模型进行微调训练,得到目标问答模型。本公开将开源数据和学术数据共同作为预训练数据;并在学术预训练数据中加入表征结构化文本含义的标签,从而可以使模型能够更好的理解学术内容,确保生成的答案更具有学术专业性。
技术关键词
问答模型训练方法
答案生成方法
文本
数据
标签
计算机程序产品
中文关键词
指令
电子设备
可读存储介质
摘要
封闭式
识别算法
训练装置
模块
生成装置
自然语言
系统为您推荐了相关专利信息
格网
夜间灯光强度
土地利用数据
夜间灯光数据
空间化方法
标签读取记录
探照设备
评价方法
轨迹
图像采集设备