多模态大模型训练数据采集方法及系统

正文

推荐专利

多模态大模型训练数据采集方法及系统

申请号：CN202411946438

申请日期：2024-12-27

公开号：CN119380144B

公开日期：2025-04-04

类型：发明专利

摘要

本申请涉及计算机技术领域，其具体地公开了一种多模态大模型训练数据采集方法及系统，其采用基于深度学习的数据处理技术对语义对齐的图像数据和图像内容文本描述数据进行语义特征提取和跨模态联合编码，以捕捉到模态间的语义关联，实现跨模态的语义信息融合，并在此基础上进一步进行图像样本的生成，进而，通过对生成的图像样本与原始图像数据进行语义偏移度量，以智能识别生成的图像样本是否为合格增强样本。通过这种方式，可以有效地丰富多模态训练数据集，确保数据的质量，解决多模态数据增强过程中跨模态语义一致性的问题，从而提高多模态大模型的训练效率。

技术关键词

训练数据采集方法跨模态文本编码特征语义特征提取矩阵样本多模态卷积神经网络模型细粒度特征图像特征提取原始图像数据数据采集系统数据处理技术数据获取模块

系统为您推荐了相关专利信息

一种基于SAM的文本引导多视角火星地形特征图像分割方法

图像分割方法地形特征分支多视角文本编码器

一种核电公司管理要求有效性判断系统及判断方法

有效性判断方法判断系统模块文件摘要技术数据库存储管理

基于LangChain架构的应急处理辅助问答方法及系统

关键词索引文本问答方法数值

一种基于多维特征聚类分析的中国传统剪纸艺术分类方法

特征聚类分析剪纸艺术分类方法遗传算法优化特征数据库

基于用户情感反馈的文创产品迭代设计方法及系统

情感反馈候选设计方案迭代设计方法优化设计方案信息抽取模型

多模态大模型训练数据采集方法及系统

站点导航

APP 下载