一种合成数据集构建方法及电子设备

正文

推荐专利

一种合成数据集构建方法及电子设备

申请号：CN202511494562

申请日期：2025-10-20

公开号：CN120975247A

公开日期：2025-11-18

类型：发明专利

摘要

本申请公开了一种合成数据集构建方法及电子设备，涉及人工智能技术领域，包括利用分词器，将目标领域的原始多源文档划分为多个分词单元；获取多个分词单元对原始多源文档的代表性得分；基于代表性得分，确定代表性得分高于第一得分阈值的分词单元为候选关键词；基于候选关键词的代表性得分，确定候选关键词的重要度得分；基于重要度得分，确定重要度得分高于第二得分阈值的候选关键词为目标关键词；调用预训练语言模型，基于目标关键词，生成目标关键词对应的问答对，以获得目标领域的合成数据集。解决了相关技术中生成的合成数据集的数据覆盖率和领域相关性较低的技术问题，达到了提高生成的合成数据集的数据覆盖率和领域相关性的技术效果。

技术关键词

关键词预训练语言模型分词数据集构建方法命名实体识别模型训练分类器电子设备覆盖率存储计算机程序人工智能技术语义专业格式模板词典词语频率目录

一种合成数据集构建方法及电子设备

站点导航

APP 下载