基于大语言模型的数据增强方法和装置

AITNT
正文
推荐专利
基于大语言模型的数据增强方法和装置
申请号:CN202410710728
申请日期:2024-06-04
公开号:CN118277645B
公开日期:2024-08-09
类型:发明专利
摘要
本发明公开了一种基于大语言模型的数据增强方法和装置,方法包括以下步骤:获取领域种子实体,将种子实体在原始语料数据中进行实体筛查以得到对应种子实体的上下文片段数据;以种子实体和上下文片段数据为基础,通过大语言模型进行用于网页信息查询的检索增强生成,生成扩展后的检索语句;将检索语句输入搜索引擎进行网页信息查询,获得返回结果中的TopN网页,解析TopN网页得到检索数据集;将检索语句与检索数据集一并输入大语言模型进行摘要总结,输出得到总结后的增强语料数据。本发明能够高质量地对原始语料数据进行自动化补充和扩展,实现更加高效和准确的数据增强。
技术关键词
大语言模型 实体 种子 语句 关键词 摘要 TextRank算法 数据采集模块 模板 图谱 网页快照 层级 节点 基础 文本 同义词 逻辑
系统为您推荐了相关专利信息
1
基于情感词匹配的人才情感倾向判断方法、系统及介质
情感倾向判断方法 智能语义分析 关键词 网络平台 身份
2
一种基于提示词工程的智能产品服务系统概念设计方法
概念设计方法 智能产品 服务系统 知识图谱构建 逻辑
3
一种基于大语言模型的知识图谱生成方法
知识图谱生成方法 大语言模型 动态更新 实体 运维
4
文本数据分析方法、装置、计算机设备和存储介质
实体 大语言模型 文本数据分析方法 图谱 关系
5
一种基于谷歌足球模拟器的强化学习方法
足球比赛视频 强化学习方法 模拟器 训练样本集 大语言模型
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号