一种基于视觉前缀的生成式多模态信息抽取方法

AITNT
正文
推荐专利
一种基于视觉前缀的生成式多模态信息抽取方法
申请号:CN202510027744
申请日期:2025-01-08
公开号:CN119961856A
公开日期:2025-05-09
类型:发明专利
摘要
本发明深度学习自然语言处理技术领域,公开了一种基于视觉前缀的生成式多模态信息抽取方法,具体为:输入文本信息及图像信息,实现文本和图像关系抽取,视觉表示作为可插入的视觉前缀,以指导错误不敏感的预测决策的文本表示,实现层次多尺度视觉特征作为融合的视觉前缀,多模态信息提取器有效地提取特征。本发明将视觉信息与文本信息进行融合,通过多层次的视觉前缀注意力机制将视觉特征与文本特征进行交互更新,结合一个统一的多模态信息提取器,将多模态信息抽取任务统一为使用指令调优的生成问题,能够实现自动回归生成信息提取结果。
技术关键词
视觉特征 多模态信息 注意力机制 文本编码器 深度学习模型 解码器 控制策略 生成多尺度 前馈神经网络 分层特征 Softmax函数 多分辨率 图像 门模块 序列 动态
系统为您推荐了相关专利信息
1
一种融合意图感知和情感分析的跨城市兴趣点推荐方法
兴趣点推荐方法 意图 矩阵 旅游推荐技术 Sigmoid函数
2
一种基于手掌脉搏波的活体检测方法及相关装置
活体检测方法 手掌 脉搏波特征 序列 注意力机制
3
一种模型-数据混合驱动的室内射频地图估计方法
数据混合驱动 地图 射频 估计方法 发射机
4
一种电机定子绝缘老化状态监测方法
电机定子绝缘 状态监测方法 前馈神经网络 高频特征 多通道
5
一种基于DALL•E和Pix2Pix GAN的三维超声图像生成方法及装置
三维超声图像 生成方法 医学 三维医疗图像 存储计算机程序
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号