摘要
本公开提供了一种图像描述文本的生成方法,涉及人工智能技术领域,尤其涉及计算机视觉、深度学习、大模型技术领域。具体实现方案为:将针对原始图像的视觉处理结果转换为视觉知识文本;根据原始图像以及视觉知识文本,生成原始图像的整图描述文本;根据原始图像的局部图像以及视觉知识文本,生成局部图像的局部描述文本;整合整图描述文本和局部描述文本,得到原始图像的整合描述文本。本公开还提供了一种图像描述文本的生成装置、电子设备和存储介质。
技术关键词
实体
图像
生成方法
文本识别
电子设备
答案
生成装置
模块
人工智能技术
计算机程序产品
合并单元
计算机视觉
处理器通信
指令
冗余
可读存储介质
系统为您推荐了相关专利信息
图像生成单元
生成提示词
计算机程序产品
处理器
策略
评价体系构建方法
节点
拓扑网络
文本
句法依存关系
音乐自动生成方法
跨模态
多模态情感识别
音乐自动生成系统
记忆系统