摘要
本发明涉及数据集增强技术领域,尤其涉及一种基于深度学习的数据集增强方法及系统,方法包括:将原始文本输入预训练跨模态文本编码器,得到原始语义向量。预设多目标模态,构建各模态的投影函数,将原始语义向量映射为各目标模态的风格引导向量,并加权融合生成综合风格向量。对原始文本进行句法分析,提取词级掩码,基于掩码将上下文词向量与综合风格向量进行差异化融合,生成全局融合语义向量。通过可训练的投影矩阵将其映射至大语言模型的输入空间,形成软提示向量并注入模型输入层,引导生成多个语义忠实且风格多样的增强文本,完成数据集增强。本发明实现了在保留原有语义信息的同时增强了生成文本多风格化的效果。
技术关键词
融合语义
语义向量
文本编码器
大语言模型
风格
跨模态图像
图文
计算机程序指令
数据
预训练语言模型
图像编码器
矩阵
序列
存储器
处理器
系统为您推荐了相关专利信息
答案
语义向量
可读存储介质
人工智能技术
处理器
大语言模型
机器可读指令
数据
处理器
可读存储介质