一种视觉和文本对齐的方法及系统

正文

推荐专利

一种视觉和文本对齐的方法及系统

申请号：CN202510916664

申请日期：2025-07-03

公开号：CN120852926A

公开日期：2025-10-28

类型：发明专利

摘要

本发明公开了一种视觉与文本对齐的方法及系统，属于人工智能和多模态语义理解技术领域。本发明为解决现有多模态问答中视觉与语言深度融合不足的问题，主要采用将视觉特征通过感知机网络映射至语言模型的自注意力输入空间，并在语言模型的各层解码器中引入融合注意力机制，实现视觉与文本的逐层交互处理。本发明能够实现视觉信息与文本语义的深度对齐与融合，提升多模态问答系统的理解与生成能力。

技术关键词

文本多层感知机解码器网络模块融合特征融合注意力机制语义理解技术矩阵多模态问答系统视觉特征非线性输入键分词

系统为您推荐了相关专利信息

一种基于自适应子空间选择算法的含违法行为网站刻画方法和系统

BERT模型刻画方法子空间特征提取爬虫爬取词向量训练

一种虹膜图像分割方法、装置、设备及存储介质

深度神经网络模型虹膜图像分割方法联合损失函数多通道图像数据神经网络模型构建

基于大模型的文本生成方法、装置、电子设备及存储介质

解码算法序列有效性文本生成方法长度缩短

一种基于人工智能的营销策略生成方法及系统

策略生成方法指数营销管理系统校正画像

基于目标检测与规则增强图文问答方法、装置及电子设备

图文问答方法语义向量对象图像

一种视觉和文本对齐的方法及系统

站点导航

APP 下载