基于大语言模型的数据增强方法和装置

正文

推荐专利

基于大语言模型的数据增强方法和装置

申请号：CN202410710728

申请日期：2024-06-04

公开号：CN118277645B

公开日期：2024-08-09

类型：发明专利

摘要

本发明公开了一种基于大语言模型的数据增强方法和装置，方法包括以下步骤：获取领域种子实体，将种子实体在原始语料数据中进行实体筛查以得到对应种子实体的上下文片段数据；以种子实体和上下文片段数据为基础，通过大语言模型进行用于网页信息查询的检索增强生成，生成扩展后的检索语句；将检索语句输入搜索引擎进行网页信息查询，获得返回结果中的TopN网页，解析TopN网页得到检索数据集；将检索语句与检索数据集一并输入大语言模型进行摘要总结，输出得到总结后的增强语料数据。本发明能够高质量地对原始语料数据进行自动化补充和扩展，实现更加高效和准确的数据增强。

技术关键词

大语言模型实体种子语句关键词摘要 TextRank算法数据采集模块模板图谱网页快照层级节点基础文本同义词逻辑

系统为您推荐了相关专利信息

基于情感词匹配的人才情感倾向判断方法、系统及介质

情感倾向判断方法智能语义分析关键词网络平台身份

一种基于提示词工程的智能产品服务系统概念设计方法

概念设计方法智能产品服务系统知识图谱构建逻辑

一种基于大语言模型的知识图谱生成方法

知识图谱生成方法大语言模型动态更新实体运维

文本数据分析方法、装置、计算机设备和存储介质

实体大语言模型文本数据分析方法图谱关系

一种基于谷歌足球模拟器的强化学习方法

足球比赛视频强化学习方法模拟器训练样本集大语言模型

基于大语言模型的数据增强方法和装置

站点导航

APP 下载