一种基于扩散模型的多模态编码对齐方法及装置

正文

推荐专利

申请号：CN202411815985

申请日期：2024-12-11

公开号：CN119599027A

公开日期：2025-03-11

类型：发明专利

摘要

本发明涉及一种基于扩散模型的多模态编码对齐方法及装置，属于多模态编码对齐技术领域，该方法包括：获取待进行语义编码的多模态数据，使用预先训练的多模态编码对齐模型对待进行语义编码的多模态数据进行条件扩散生成文本编码；将文本编码输入大模型解码器或作为RAG编码进行下游任务；其中，生成的文本编码作为多模态数据语义编码使用，与文本编码语义对齐。本发明中预先训练的多模态编码对齐模型利用扩散模型可学习的潜在多模态数据编码信息，通过一种扩散模型结构同时完成多模态的语义编码，同时使用大语言模型编码作为多任务优化方向，使得预先训练的多模态模型编码对齐模型结果更试用于下游任务。

技术关键词

对齐方法多模态文本噪声大语言模型多任务数据编码解码器对齐技术可读存储介质预训练模型对齐装置语义计算机输入模块程序指令存储器

系统为您推荐了相关专利信息

一种任意阵列双基地MIMO雷达的DOD和DOA联合估计方法

双基地MIMO雷达联合估计方法信号匹配滤波协方差矩阵反射面

一种基于Transformer模型的光刻机掩膜版对准方法

对准方法掩膜动态步进电机控制策略图像

一种设备运行状态下的次级通道补偿建模方法

补偿建模方法设备运行状态次级通道建模 LMS算法船舶推进系统

多维度体感反馈的石墨烯按摩器控制方法、系统及介质

按摩器控制生理反馈信息多维特征向量情感特征 Kalman滤波

多维用户画像与自适应图融合的舆情演化预测方法与系统

交互历史注意力源节点主题关系

一种基于扩散模型的多模态编码对齐方法及装置

站点导航

APP 下载