摘要
本申请公开了一种合成数据集构建方法及电子设备,涉及人工智能技术领域,包括利用分词器,将目标领域的原始多源文档划分为多个分词单元;获取多个分词单元对原始多源文档的代表性得分;基于代表性得分,确定代表性得分高于第一得分阈值的分词单元为候选关键词;基于候选关键词的代表性得分,确定候选关键词的重要度得分;基于重要度得分,确定重要度得分高于第二得分阈值的候选关键词为目标关键词;调用预训练语言模型,基于目标关键词,生成目标关键词对应的问答对,以获得目标领域的合成数据集。解决了相关技术中生成的合成数据集的数据覆盖率和领域相关性较低的技术问题,达到了提高生成的合成数据集的数据覆盖率和领域相关性的技术效果。
技术关键词
关键词
预训练语言模型
分词
数据集构建方法
命名实体识别模型
训练分类器
电子设备
覆盖率
存储计算机程序
人工智能技术
语义
专业
格式
模板
词典
词语
频率
目录
系统为您推荐了相关专利信息
数据更新方法
高斯核函数
生成关键词
LDA主题模型
数据更新系统