摘要
本发明涉及图像处理技术领域,提供一种基于文本引导的图像裁剪方法、装置、设备和存储介质,其中方法包括:对待裁剪图像和文本描述进行特征提取,并基于提取得到的图像特征和文本特征,生成与文本描述语义匹配的初始裁剪框;采用强化学习算法,对初始裁剪框进行动态优化,得到多个候选裁剪图像;采用多维度评分机制对各候选裁剪图像进行评分,并基于各候选裁剪图像的得分,确定出目标裁剪图像。本发明通过基于图像特征和文本特征确定初始裁剪框,再利用强化学习算法,设计美学评估结果、语义相似度评分和边界约束的复合奖励函数来优化裁剪框,最终自动高效地生成符合用户意图的最佳图像美学裁剪结果,实现了美学质量与语义一致性的最优平衡。
技术关键词
图像裁剪方法
强化学习算法
美学
语义
预定义动作
评分机制
文本特征向量
图像特征向量
图像裁剪装置
非暂态计算机可读存储介质
交叉注意力机制
图像多模态
融合特征
策略
文本编码器
图像编码器
图像处理技术
处理器
系统为您推荐了相关专利信息
图像检测方法
图像检测模型
样本
解码器
视觉特征
钢结构桥梁
图像块
语义分割方法
语义分割算法
图片