基于数据增强的语言模型构建方法、装置、设备及介质

AITNT
正文
推荐专利
基于数据增强的语言模型构建方法、装置、设备及介质
申请号:CN202411608945
申请日期:2024-11-12
公开号:CN119760144A
公开日期:2025-04-04
类型:发明专利
摘要
本发明涉及数据增强技术领域,揭露一种基于数据增强的语言模型构建方法,包括:将获取的大规模语料数据进行分类,得到文本数据、音频数据和视频数据;对文本数据、音频数据和视频数进行增强,得到增强文本数据、增强音频数据和增强视频数据;提取增强视频数据中每一帧的图像,得到增强图像数据,并分别进行标准化,得到标准文本数据、标准音频数据和标准图像数据;基于数据类别,选择对应的特征转换方法,将数据转换为特征向量,得到文本特征向量、音频特征向量和图像特征向量;通过Transformer模型和各个向量进行模型构建,得到大语言模型。本发明还提出一种基于数据增强的语言模型构建装置、设备及存储介质。本发明可以提高构建的语言模型的性能。
技术关键词
语言模型构建方法 数据 大规模语料 音频 文本特征向量 图像特征向量 视频 文库 构建知识图谱 模型构建装置 大语言模型 转换方法 命名实体识别方法 关系 语义分析模型 自动语音识别
系统为您推荐了相关专利信息
1
储能机器人的控制方法、储能机器人及储能系统
光电转换效率 坐标 天气 电池模组 储能系统
2
一种基于多模影像的手术导航系统
手术导航系统 影像 图像配准 多模态数据采集 耦合结构
3
一种智能电站及其监测方法
智能电站设备 工作站主机 智能控制终端 智能辅助监测 辅助设备
4
基于气象网格数据的农作物生长状态模拟方法及系统
农作物生长状态 标签 数据模拟系统 气象环境参数 传感器
5
一种纪要生成方法及相关装置
会议纪要 生成方法 音频 样本 文本
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号