摘要
本发明涉及人工智能多模态大模型技术领域,公开了一种考虑多粒度语义对齐的多模态人体大模型训练方法及系统,所述方法包括:通过改进网络结构对大规模训练集进行前缀构造,基于人体特征对所述训练集中的数据附加描述相关的前缀;分批训练所述多模态人体大模型,将每一批训练数据中每张图像与每个文本进行配对,通过相似度计算和语义松弛进行对比损失的改进,优化视觉及文本模态编码器参数,通过以上方法,实现了一种考虑多粒度语义对齐的多模态人体大模型训练系统,针对当前多模态大模型在人体跨模态检索应用中遇到的多粒度语义对齐难题,分别从网络结构与损失函数两个方面对通用多模态大模型进行改进,增强在多粒度语义下跨模态人体检索的性能。
技术关键词
模型训练方法
语义
多模态
人体特征
编码器参数
模型训练系统
训练集
松弛
文本特征向量
图像特征向量
神经网络结构
数据
模板组合
视觉
跨模态