摘要
本发明提供了一种图文转换修正方法、设备及存储介质,涉及图像处理领域。该方法包括:获取待处理的原始图像并将原始图像输入预设的图生文模型生成文本描述;基于原始图像、文本描述和预设的文生图模型得到模拟图像;对原始图像和模拟图像进行切片分析得到图像切片对和每个图像切片对的相似度数据;根据相似度数据对图像切片对进行分析生成纠正文本;通过纠正文本对文本描述进行修正得到目标文本。通过原始图像生成文本描述、文本描述生成模拟图像、原始图像与模拟图像进行对比的方式对文本描述进行修正,有效减少了文本描述存在物体幻觉和文本描述与图片内容不一致的情况出现,提高了图文转换所生成文本描述的准确性。
技术关键词
切片
计算机执行指令
文本特征向量
修正方法
图文
修正设备
数据
可读存储介质
大语言模型
视觉
对象检测
处理器通信
存储器
图像处理
分析模块
多模态
系统为您推荐了相关专利信息
城市内涝灾害
灾害风险评估
计算机执行指令
同义词
指标
接入优化方法
节点
低时延
Kubernetes集群
负载均衡策略
发电预测方法
日用电量
BP神经网络
误差函数
样本