摘要
本发明深度学习自然语言处理技术领域,公开了一种基于视觉前缀的生成式多模态信息抽取方法,具体为:输入文本信息及图像信息,实现文本和图像关系抽取,视觉表示作为可插入的视觉前缀,以指导错误不敏感的预测决策的文本表示,实现层次多尺度视觉特征作为融合的视觉前缀,多模态信息提取器有效地提取特征。本发明将视觉信息与文本信息进行融合,通过多层次的视觉前缀注意力机制将视觉特征与文本特征进行交互更新,结合一个统一的多模态信息提取器,将多模态信息抽取任务统一为使用指令调优的生成问题,能够实现自动回归生成信息提取结果。
技术关键词
视觉特征
多模态信息
注意力机制
文本编码器
深度学习模型
解码器
控制策略
生成多尺度
前馈神经网络
分层特征
Softmax函数
多分辨率
图像
门模块
序列
动态
系统为您推荐了相关专利信息
兴趣点推荐方法
意图
矩阵
旅游推荐技术
Sigmoid函数
电机定子绝缘
状态监测方法
前馈神经网络
高频特征
多通道
三维超声图像
生成方法
医学
三维医疗图像
存储计算机程序