摘要
本发明涉及基于大语言模型的问题生成方法,包括以下步骤:S1、获取文本数据,组成包含段落‑问题‑答案的训练集;S2、自动标注训练集上的复制词,具体方法为:遍历段落中的词语,如果某词语不在停词表中,且出现在问题中,则将其标注为复制词;S3、复制词分类模型得到段落中每个分词的复制词或非复制词概率;S4、对复制词分类模型输出结果进行后处理;S5、基于问题生成模型,在输入层添加复制词特征,生成高价值的问题。本发明涉及大语言模型的技术领域。本发明在问题生成模型的输入层中融合了复制词特征,限制生成结果中所包含的从段落原文中复制的词,可以提升复制的准确性,复制更关键的信息,减少正确但不重要的问题的生成,减少浪费算力。
技术关键词
大语言模型
生成方法
词特征
语义向量
解码器
答案
注意力编码器
数据生成模型
词语
停用词表
分词
训练集
传播算法
解码模块
编码模块
评价方法
系统为您推荐了相关专利信息
医学图像分割方法
切片
动态相关性特征
多粒度特征
教师
缺陷分割方法
特征融合网络
分支
特征提取网络
注意力
学习资源推送方法
知识点标签
大语言模型
文本
认证设备