多模态大模型训练数据采集方法及系统

AITNT
正文
推荐专利
多模态大模型训练数据采集方法及系统
申请号:CN202411946438
申请日期:2024-12-27
公开号:CN119380144B
公开日期:2025-04-04
类型:发明专利
摘要
本申请涉及计算机技术领域,其具体地公开了一种多模态大模型训练数据采集方法及系统,其采用基于深度学习的数据处理技术对语义对齐的图像数据和图像内容文本描述数据进行语义特征提取和跨模态联合编码,以捕捉到模态间的语义关联,实现跨模态的语义信息融合,并在此基础上进一步进行图像样本的生成,进而,通过对生成的图像样本与原始图像数据进行语义偏移度量,以智能识别生成的图像样本是否为合格增强样本。通过这种方式,可以有效地丰富多模态训练数据集,确保数据的质量,解决多模态数据增强过程中跨模态语义一致性的问题,从而提高多模态大模型的训练效率。
技术关键词
训练数据采集方法 跨模态 文本 编码特征 语义特征提取 矩阵 样本 多模态 卷积神经网络模型 细粒度特征 图像特征提取 原始图像数据 数据采集系统 数据处理技术 数据获取模块
系统为您推荐了相关专利信息
1
一种基于SAM的文本引导多视角火星地形特征图像分割方法
图像分割方法 地形特征 分支 多视角 文本编码器
2
一种核电公司管理要求有效性判断系统及判断方法
有效性判断方法 判断系统 模块 文件摘要技术 数据库存储管理
3
基于LangChain架构的应急处理辅助问答方法及系统
关键词 索引 文本 问答方法 数值
4
一种基于多维特征聚类分析的中国传统剪纸艺术分类方法
特征聚类分析 剪纸艺术 分类方法 遗传算法优化 特征数据库
5
基于用户情感反馈的文创产品迭代设计方法及系统
情感反馈 候选设计方案 迭代设计方法 优化设计方案 信息抽取模型
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号