一种基于深度学习的数据集增强方法及系统

AITNT
正文
推荐专利
一种基于深度学习的数据集增强方法及系统
申请号:CN202511141956
申请日期:2025-08-15
公开号:CN120705590B
公开日期:2025-12-05
类型:发明专利
摘要
本发明涉及数据集增强技术领域,尤其涉及一种基于深度学习的数据集增强方法及系统,方法包括:将原始文本输入预训练跨模态文本编码器,得到原始语义向量。预设多目标模态,构建各模态的投影函数,将原始语义向量映射为各目标模态的风格引导向量,并加权融合生成综合风格向量。对原始文本进行句法分析,提取词级掩码,基于掩码将上下文词向量与综合风格向量进行差异化融合,生成全局融合语义向量。通过可训练的投影矩阵将其映射至大语言模型的输入空间,形成软提示向量并注入模型输入层,引导生成多个语义忠实且风格多样的增强文本,完成数据集增强。本发明实现了在保留原有语义信息的同时增强了生成文本多风格化的效果。
技术关键词
融合语义 语义向量 文本编码器 大语言模型 风格 跨模态图像 图文 计算机程序指令 数据 预训练语言模型 图像编码器 矩阵 序列 存储器 处理器
系统为您推荐了相关专利信息
1
基于人工智能的问答处理方法、装置、设备及存储介质
答案 语义向量 可读存储介质 人工智能技术 处理器
2
基于多模态实体对齐的多图像处理方法
图像处理方法 实体 注意力 语义 图像嵌入
3
一种语音指令的处理方法、装置及电子设备
汽车座舱 语音助手 大语言模型 文本 云端服务器
4
基于RAG和大模型的数据库查询训练方法及装置
大语言模型 机器可读指令 数据 处理器 可读存储介质
5
基于智能体的任务处理方法、装置、设备、存储介质及程序产品
阶段 账号 多智能体协作 自然语言理解 模块
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号