基于数据增强的语言模型构建方法、装置、设备及介质

正文

推荐专利

申请号：CN202411608945

申请日期：2024-11-12

公开号：CN119760144A

公开日期：2025-04-04

类型：发明专利

摘要

本发明涉及数据增强技术领域，揭露一种基于数据增强的语言模型构建方法，包括：将获取的大规模语料数据进行分类，得到文本数据、音频数据和视频数据；对文本数据、音频数据和视频数进行增强，得到增强文本数据、增强音频数据和增强视频数据；提取增强视频数据中每一帧的图像，得到增强图像数据，并分别进行标准化，得到标准文本数据、标准音频数据和标准图像数据；基于数据类别，选择对应的特征转换方法，将数据转换为特征向量，得到文本特征向量、音频特征向量和图像特征向量；通过Transformer模型和各个向量进行模型构建，得到大语言模型。本发明还提出一种基于数据增强的语言模型构建装置、设备及存储介质。本发明可以提高构建的语言模型的性能。

技术关键词

语言模型构建方法数据大规模语料音频文本特征向量图像特征向量视频文库构建知识图谱模型构建装置大语言模型转换方法命名实体识别方法关系语义分析模型自动语音识别

系统为您推荐了相关专利信息

储能机器人的控制方法、储能机器人及储能系统

光电转换效率坐标天气电池模组储能系统

一种基于多模影像的手术导航系统

手术导航系统影像图像配准多模态数据采集耦合结构

一种智能电站及其监测方法

智能电站设备工作站主机智能控制终端智能辅助监测辅助设备

基于气象网格数据的农作物生长状态模拟方法及系统

农作物生长状态标签数据模拟系统气象环境参数传感器

一种纪要生成方法及相关装置

会议纪要生成方法音频样本文本

基于数据增强的语言模型构建方法、装置、设备及介质

站点导航

APP 下载