摘要
本发明涉及多模态提示学习技术领域,公开了一种基于注意力机制的跨层图像文本交互提示学习方法,包括获取文本数据和图像数据;构建跨层图像文本交互提示学习网络模型;利用词嵌入模块将文本数据转化为词向量;利用文本编码器网络对词向量和文本提示向量进行多层级的注意力编码,得到文本编码;利用跨层交互提示学习模块对文本提示向量采用多头注意力机制生成图像提示向量;利用图切分模块将图像数据转化为块特征图;利用图像编码器网络对块特征图和图像提示向量进行多层级的注意力编码,得到图像编码;利用多模态对比学习模块对文本编码和图像编码进行多模态对比学习。本发明能够进一步提升多模态学习执行任务的准确性。
技术关键词
多头注意力机制
学习方法
文本编码器
图像编码器
多模态
网络
多层感知机
层级
模块
数据
线性
序列
图像块
层叠
系统为您推荐了相关专利信息
AI人工智能
数据管理系统
发票真伪识别
区块链智能合约
自然语言理解技术
面向多模态数据
分类分级方法
多维度评估方法
深度学习模型
Word2Vec模型