一种基于动态特征同步器的多模态图文交错生成模型

AITNT
正文
推荐专利
一种基于动态特征同步器的多模态图文交错生成模型
申请号:CN202410798605
申请日期:2024-06-20
公开号:CN118364433A
公开日期:2024-07-19
类型:发明专利
摘要
本公开涉及多模态学习技术领域,尤其涉及一种基于动态特征同步器的多模态图文交错生成模型,所述多模态图文交错生成模型包括图像编码器和多模态大语言模型;图像编码器用于从图文交错数据的输入图像中提取多分辨率多尺度特征图;多模态大语言模型中的动态特征同步器用于从多分辨率多尺度特征图中获取细粒度信息,以使得多模态大语言模型基于细粒度信息确定图文交错数据对应的输出特征数据,输出特征数据用于生成与图文交错数据相关联的目标图像和/或目标文本。本公开实施例通过动态特征同步器将图文交错数据中的细粒度信息动态注入至多模态大语言模型中,突破细节利用瓶颈,提高上下文理解能力,实现了对图文交错数据的高效联合理解和生成。
技术关键词
大语言模型 多尺度特征 图文 同步器 多分辨率 多模态 图像解码器 输出特征 图像编码器 数据 动态 文本特征向量 非易失性计算机可读存储介质 计算机程序指令 注意力 采样点 分类器 视觉
系统为您推荐了相关专利信息
1
一种基于大语言模型的无人机群任务规划方法
大语言模型 生成无人机 构建无人机 规划 理解自然语言
2
一种印刷包装的生产质量控制方法
轻量化卷积神经网络 深度确定性策略梯度 遗传优化算法 包装 焦点损失函数
3
一种基于隐式神经模型的粗集料三维重建方法
三维重建方法 轮廓图像数据 纹理模型 粗集料颗粒 图像获取系统
4
便携式的高算力产品和信息处理方法
芯片 散热风扇 Type‑C接口 信号 信息处理方法
5
一种免训练的网格化视频特征压缩方法
标记 序列 网格 图像块 文本
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号