一种基于视觉前缀的生成式多模态信息抽取方法

正文

推荐专利

申请号：CN202510027744

申请日期：2025-01-08

公开号：CN119961856A

公开日期：2025-05-09

类型：发明专利

摘要

本发明深度学习自然语言处理技术领域，公开了一种基于视觉前缀的生成式多模态信息抽取方法，具体为：输入文本信息及图像信息，实现文本和图像关系抽取，视觉表示作为可插入的视觉前缀，以指导错误不敏感的预测决策的文本表示，实现层次多尺度视觉特征作为融合的视觉前缀，多模态信息提取器有效地提取特征。本发明将视觉信息与文本信息进行融合，通过多层次的视觉前缀注意力机制将视觉特征与文本特征进行交互更新，结合一个统一的多模态信息提取器，将多模态信息抽取任务统一为使用指令调优的生成问题，能够实现自动回归生成信息提取结果。

技术关键词

视觉特征多模态信息注意力机制文本编码器深度学习模型解码器控制策略生成多尺度前馈神经网络分层特征 Softmax函数多分辨率图像门模块序列动态

系统为您推荐了相关专利信息

一种融合意图感知和情感分析的跨城市兴趣点推荐方法

兴趣点推荐方法意图矩阵旅游推荐技术 Sigmoid函数

一种基于手掌脉搏波的活体检测方法及相关装置

活体检测方法手掌脉搏波特征序列注意力机制

一种模型-数据混合驱动的室内射频地图估计方法

数据混合驱动地图射频估计方法发射机

一种电机定子绝缘老化状态监测方法

电机定子绝缘状态监测方法前馈神经网络高频特征多通道

一种基于DALL•E和Pix2Pix GAN的三维超声图像生成方法及装置

三维超声图像生成方法医学三维医疗图像存储计算机程序

一种基于视觉前缀的生成式多模态信息抽取方法

站点导航

APP 下载