一种视觉和文本对齐的方法及系统

AITNT
正文
推荐专利
一种视觉和文本对齐的方法及系统
申请号:CN202510916664
申请日期:2025-07-03
公开号:CN120852926A
公开日期:2025-10-28
类型:发明专利
摘要
本发明公开了一种视觉与文本对齐的方法及系统,属于人工智能和多模态语义理解技术领域。本发明为解决现有多模态问答中视觉与语言深度融合不足的问题,主要采用将视觉特征通过感知机网络映射至语言模型的自注意力输入空间,并在语言模型的各层解码器中引入融合注意力机制,实现视觉与文本的逐层交互处理。本发明能够实现视觉信息与文本语义的深度对齐与融合,提升多模态问答系统的理解与生成能力。
技术关键词
文本 多层感知机 解码器 网络模块 融合特征 融合注意力机制 语义理解技术 矩阵 多模态 问答系统 视觉特征 非线性 输入键 分词
系统为您推荐了相关专利信息
1
一种基于自适应子空间选择算法的含违法行为网站刻画方法和系统
BERT模型 刻画方法 子空间特征提取 爬虫爬取 词向量训练
2
一种虹膜图像分割方法、装置、设备及存储介质
深度神经网络模型 虹膜图像分割方法 联合损失函数 多通道图像数据 神经网络模型构建
3
基于大模型的文本生成方法、装置、电子设备及存储介质
解码算法 序列 有效性 文本生成方法 长度缩短
4
一种基于人工智能的营销策略生成方法及系统
策略生成方法 指数 营销管理系统 校正 画像
5
基于目标检测与规则增强图文问答方法、装置及电子设备
图文 问答方法 语义向量 对象 图像
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号