摘要
本发明涉及数据增强技术领域,揭露一种基于数据增强的语言模型构建方法,包括:将获取的大规模语料数据进行分类,得到文本数据、音频数据和视频数据;对文本数据、音频数据和视频数进行增强,得到增强文本数据、增强音频数据和增强视频数据;提取增强视频数据中每一帧的图像,得到增强图像数据,并分别进行标准化,得到标准文本数据、标准音频数据和标准图像数据;基于数据类别,选择对应的特征转换方法,将数据转换为特征向量,得到文本特征向量、音频特征向量和图像特征向量;通过Transformer模型和各个向量进行模型构建,得到大语言模型。本发明还提出一种基于数据增强的语言模型构建装置、设备及存储介质。本发明可以提高构建的语言模型的性能。
技术关键词
语言模型构建方法
数据
大规模语料
音频
文本特征向量
图像特征向量
视频
文库
构建知识图谱
模型构建装置
大语言模型
转换方法
命名实体识别方法
关系
语义分析模型
自动语音识别
系统为您推荐了相关专利信息
手术导航系统
影像
图像配准
多模态数据采集
耦合结构
智能电站设备
工作站主机
智能控制终端
智能辅助监测
辅助设备
农作物生长状态
标签
数据模拟系统
气象环境参数
传感器