一种多场景全域图像一致性报告生成方法及框架结构

AITNT
正文
推荐专利
一种多场景全域图像一致性报告生成方法及框架结构
申请号:CN202411804738
申请日期:2024-12-10
公开号:CN119626441A
公开日期:2025-03-14
类型:发明专利
摘要
本发明公开了一种多场景全域图像一致性报告生成方法及框架结构,所述框架结构包括视觉特征编码模块、文本语义编码模块、多场景视觉‑文本对齐模块、多场景主题感知模块、报告生成模型管道,本发明利用视觉特征编码模块、文本语义编码模块分别提取图像特征和文本特征,经多场景视觉‑文本对齐模块将多尺度文本特征与其对应的多尺度图像特征的对齐,再经多场景主题感知模块提高了多场景图像和文本的描述对应性,最后由报告生成模型管道生成一致性报告,解决了多场景图像与报告文本的对应场景描述准确性低、连贯性差,以及生成报告不准确的问题。
技术关键词
报告生成方法 多场景 语句 视觉特征编码 文本特征向量 语义特征 主题 对齐模块 局部图像特征 序列 代表 框架结构 注意力机制 索引 编码模块
系统为您推荐了相关专利信息
1
基于链式条件引导的数值程序浮点误差检测方法及装置
误差检测方法 数值 语句 启发式搜索 计算机程序产品
2
一种测试用例批量生成方法
场景 生成方法 自然语言 批量 轮廓系数
3
一种光伏电站的安全管理方法及相关产品
光伏电站 联动控制策略 管理方法 大数据平台 智能巡检
4
一种多场景下的油品调合优化方法、系统及存储介质
多场景 成品油 计算机 可读存储介质 算法
5
一种实体识别方法,实体识别装置以及计算机存储介质
实体识别方法 自定义实体 分片 计算机存储介质 文本
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号