摘要
本发明涉及人工智能技术领域及医疗健康领域,公开了一种图像描述生成方法,包括:获取图像数据,生成视觉嵌入和标签文本的嵌入向量,分析图像数据与每个标签文本之间的相似度分数,根据相似度分数生成加权热力图,基于加权热力图确定显著区域及其对应的标签和空间位置信息,最终生成图像描述。本发明通过多模态特征匹配和加权热力图生成,精准识别图像中的显著区域及多标签场景,生成语义连贯的图像描述文本,提升了图像描述的准确性、细节捕捉能力和文本可读性,适用于医疗健康和金融领域的智能图文分析与辅助决策。
技术关键词
标签文本
生成方法
生成热力图
编码模块
生成程序
视觉
医疗健康
分析图像数据
通道
智能图文
生成装置
计算机设备
多模态特征
图像块
系统为您推荐了相关专利信息
去噪模型
特征提取模块
重构模块
编码模块
解码模块
有机忆阻器
神经网络架构
生成方法
脉冲
剪枝技术
生成模型训练方法
末端执行器
文本
生成机器人
汽车线束