一种基于深度学习的数据集增强方法及系统

正文

推荐专利

一种基于深度学习的数据集增强方法及系统

申请号：CN202511141956

申请日期：2025-08-15

公开号：CN120705590B

公开日期：2025-12-05

类型：发明专利

摘要

本发明涉及数据集增强技术领域，尤其涉及一种基于深度学习的数据集增强方法及系统，方法包括：将原始文本输入预训练跨模态文本编码器，得到原始语义向量。预设多目标模态，构建各模态的投影函数，将原始语义向量映射为各目标模态的风格引导向量，并加权融合生成综合风格向量。对原始文本进行句法分析，提取词级掩码，基于掩码将上下文词向量与综合风格向量进行差异化融合，生成全局融合语义向量。通过可训练的投影矩阵将其映射至大语言模型的输入空间，形成软提示向量并注入模型输入层，引导生成多个语义忠实且风格多样的增强文本，完成数据集增强。本发明实现了在保留原有语义信息的同时增强了生成文本多风格化的效果。

技术关键词

融合语义语义向量文本编码器大语言模型风格跨模态图像图文计算机程序指令数据预训练语言模型图像编码器矩阵序列存储器处理器

系统为您推荐了相关专利信息

基于人工智能的问答处理方法、装置、设备及存储介质

答案语义向量可读存储介质人工智能技术处理器

基于多模态实体对齐的多图像处理方法

图像处理方法实体注意力语义图像嵌入

一种语音指令的处理方法、装置及电子设备

汽车座舱语音助手大语言模型文本云端服务器

基于RAG和大模型的数据库查询训练方法及装置

大语言模型机器可读指令数据处理器可读存储介质

基于智能体的任务处理方法、装置、设备、存储介质及程序产品

阶段账号多智能体协作自然语言理解模块

一种基于深度学习的数据集增强方法及系统

站点导航

APP 下载