一种基于多模态检索增强生成的新闻图片描述方法

AITNT
正文
推荐专利
一种基于多模态检索增强生成的新闻图片描述方法
申请号:CN202510694613
申请日期:2025-05-28
公开号:CN120336571A
公开日期:2025-07-18
类型:发明专利
摘要
本发明涉及计算机视觉领域,公开了一种基于多模态检索增强生成的新闻图片描述方法,该方法首先构建以实体为中心的多模态知识库,设计基于思维链的跨模态对齐策略,筛选相关句子生成假设图片描述和新闻摘要;提出背景信息与实体协同检索增强机制,优化背景知识图并实现精准实体匹配;最后将假设图片描述、新闻摘要、选定句子和匹配实体输入InstructBLIP文本编码器获取文本特征,图片经视觉编码器获取视觉特征,背景知识图经GAT获取知识特征,融合到解码器得到新闻图片描述。本发明通过多模态知识库构建、思维链跨模态对齐和背景信息与实体协同检索增强,有效提高新闻图片描述的准确性和语义对齐能力。
技术关键词
视觉特征 多模态 文本编码器 图片人脸 人脸检测模型 命名实体识别 解码器 人脸识别模型 注意力 对齐方法 大语言模型 人脸图片 生成指令 计算机视觉 代表 摘要
系统为您推荐了相关专利信息
1
多模态情感交互系统及方法
情感交互系统 音频 多模态 情感交互方法 控制通讯协议
2
自适应关键帧挖掘和时空图学习引导的多模态多目标跟踪方法
关键帧 融合特征 跟踪方法 视频 可见光图像
3
数字化系统问题处理方法及装置
运维知识图谱 条目 结构化查询语句 文本 命名实体识别模型
4
一种基于生成对抗网络和多模态数据的智能数据增强方法、装置及介质
生成对抗网络模型 多模态特征融合 深度卷积神经网络 数据 梅尔频率倒谱系数
5
一种营销电子邮件投递系统及方法
投递系统 电子邮件投递方法 前馈神经网络 编码器 Sigmoid函数
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号