摘要
本说明书实施例提供一种多模态数据处理方法及装置,本说明书的技术构思下提供的多模态数据处理方案,在模型架构上,可以对业务问题相关的各模态数据经过离散化编码(tokenizer),在相应各个模态上分别得到多个令牌(token)的嵌入向量,并将大语言模型在生成文本时对各个令牌token的嵌入向量进一步编码形成的各个表征向量一起输出,作为后续多模态生成模块的输入。如此,可以通过一个多模态大模型,集多模态感知、生成于一体,实现跨模态的数据理解、生成,有利于大语言模型实现性能和场景的更多扩展。
技术关键词
大语言模型
图像生成网络
多模态信息
文本
编码模块
音频编码
样本
令牌
特征生成图像
生成图像数据
视觉
数据处理装置