摘要
本发明公开了一种基于大语言模型的数据增强方法和装置,方法包括以下步骤:获取领域种子实体,将种子实体在原始语料数据中进行实体筛查以得到对应种子实体的上下文片段数据;以种子实体和上下文片段数据为基础,通过大语言模型进行用于网页信息查询的检索增强生成,生成扩展后的检索语句;将检索语句输入搜索引擎进行网页信息查询,获得返回结果中的TopN网页,解析TopN网页得到检索数据集;将检索语句与检索数据集一并输入大语言模型进行摘要总结,输出得到总结后的增强语料数据。本发明能够高质量地对原始语料数据进行自动化补充和扩展,实现更加高效和准确的数据增强。
技术关键词
大语言模型
实体
种子
语句
关键词
摘要
TextRank算法
数据采集模块
模板
图谱
网页快照
层级
节点
基础
文本
同义词
逻辑
系统为您推荐了相关专利信息
情感倾向判断方法
智能语义分析
关键词
网络平台
身份
概念设计方法
智能产品
服务系统
知识图谱构建
逻辑
知识图谱生成方法
大语言模型
动态更新
实体
运维
足球比赛视频
强化学习方法
模拟器
训练样本集
大语言模型