一种多场景全域图像一致性报告生成方法及框架结构

正文

推荐专利

申请号：CN202411804738

申请日期：2024-12-10

公开号：CN119626441A

公开日期：2025-03-14

类型：发明专利

摘要

本发明公开了一种多场景全域图像一致性报告生成方法及框架结构，所述框架结构包括视觉特征编码模块、文本语义编码模块、多场景视觉‑文本对齐模块、多场景主题感知模块、报告生成模型管道，本发明利用视觉特征编码模块、文本语义编码模块分别提取图像特征和文本特征，经多场景视觉‑文本对齐模块将多尺度文本特征与其对应的多尺度图像特征的对齐，再经多场景主题感知模块提高了多场景图像和文本的描述对应性，最后由报告生成模型管道生成一致性报告，解决了多场景图像与报告文本的对应场景描述准确性低、连贯性差，以及生成报告不准确的问题。

技术关键词

报告生成方法多场景语句视觉特征编码文本特征向量语义特征主题对齐模块局部图像特征序列代表框架结构注意力机制索引编码模块

系统为您推荐了相关专利信息

基于链式条件引导的数值程序浮点误差检测方法及装置

误差检测方法数值语句启发式搜索计算机程序产品

一种测试用例批量生成方法

场景生成方法自然语言批量轮廓系数

一种光伏电站的安全管理方法及相关产品

光伏电站联动控制策略管理方法大数据平台智能巡检

一种多场景下的油品调合优化方法、系统及存储介质

多场景成品油计算机可读存储介质算法

一种实体识别方法，实体识别装置以及计算机存储介质

实体识别方法自定义实体分片计算机存储介质文本

一种多场景全域图像一致性报告生成方法及框架结构

站点导航

APP 下载