一种基于注意力机制的跨层图像文本交互提示学习方法

AITNT
正文
推荐专利
一种基于注意力机制的跨层图像文本交互提示学习方法
申请号:CN202411816387
申请日期:2024-12-11
公开号:CN119783020A
公开日期:2025-04-08
类型:发明专利
摘要
本发明涉及多模态提示学习技术领域,公开了一种基于注意力机制的跨层图像文本交互提示学习方法,包括获取文本数据和图像数据;构建跨层图像文本交互提示学习网络模型;利用词嵌入模块将文本数据转化为词向量;利用文本编码器网络对词向量和文本提示向量进行多层级的注意力编码,得到文本编码;利用跨层交互提示学习模块对文本提示向量采用多头注意力机制生成图像提示向量;利用图切分模块将图像数据转化为块特征图;利用图像编码器网络对块特征图和图像提示向量进行多层级的注意力编码,得到图像编码;利用多模态对比学习模块对文本编码和图像编码进行多模态对比学习。本发明能够进一步提升多模态学习执行任务的准确性。
技术关键词
多头注意力机制 学习方法 文本编码器 图像编码器 多模态 网络 多层感知机 层级 模块 数据 线性 序列 图像块 层叠
系统为您推荐了相关专利信息
1
基于知识图谱的辅助诊疗问答方法及系统、设备、介质
问答方法 融合特征 关键词 图谱 文本
2
一种基于AI人工智能的报销数据管理系统及方法
AI人工智能 数据管理系统 发票真伪识别 区块链智能合约 自然语言理解技术
3
人机交接中动态灵巧抓取的基准测试系统
基准测试系统 灵巧手 动态 物体 人机交互数据
4
服务器无线通信方法及系统
无线通信方法 认知无线电技术 信道 服务器 数据
5
一种面向多模态数据集的智能分类分级方法
面向多模态数据 分类分级方法 多维度评估方法 深度学习模型 Word2Vec模型
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号