一种合成数据集构建方法及电子设备

AITNT
正文
推荐专利
一种合成数据集构建方法及电子设备
申请号:CN202511494562
申请日期:2025-10-20
公开号:CN120975247A
公开日期:2025-11-18
类型:发明专利
摘要
本申请公开了一种合成数据集构建方法及电子设备,涉及人工智能技术领域,包括利用分词器,将目标领域的原始多源文档划分为多个分词单元;获取多个分词单元对原始多源文档的代表性得分;基于代表性得分,确定代表性得分高于第一得分阈值的分词单元为候选关键词;基于候选关键词的代表性得分,确定候选关键词的重要度得分;基于重要度得分,确定重要度得分高于第二得分阈值的候选关键词为目标关键词;调用预训练语言模型,基于目标关键词,生成目标关键词对应的问答对,以获得目标领域的合成数据集。解决了相关技术中生成的合成数据集的数据覆盖率和领域相关性较低的技术问题,达到了提高生成的合成数据集的数据覆盖率和领域相关性的技术效果。
技术关键词
关键词 预训练语言模型 分词 数据集构建方法 命名实体识别模型 训练分类器 电子设备 覆盖率 存储计算机程序 人工智能技术 语义 专业 格式 模板 词典 词语 频率 目录
系统为您推荐了相关专利信息
1
面向网络反馈信息监测的短文本微博共指消解模型
编码器 文本 特征模板 关键词 训练分类器
2
一种用于医疗行动链优化大语言模型增强方法及系统
大语言模型 答案 信息检索 节点 问答生成方法
3
一种基于文本语义信息融合的段落划分方法及系统
语义分析模型 划分方法 文本行 布局 页面宽度
4
文本分类模型优化方法、文本分类方法及装置
文本分类模型 语义 关键词 文本分类方法 层级
5
一种基于需求词库的数据更新方法及系统
数据更新方法 高斯核函数 生成关键词 LDA主题模型 数据更新系统
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号