基于文本引导的图像裁剪方法、装置、设备和存储介质

正文

推荐专利

申请号：CN202510376196

申请日期：2025-03-27

公开号：CN120707845A

公开日期：2025-09-26

类型：发明专利

摘要

本发明涉及图像处理技术领域，提供一种基于文本引导的图像裁剪方法、装置、设备和存储介质，其中方法包括：对待裁剪图像和文本描述进行特征提取，并基于提取得到的图像特征和文本特征，生成与文本描述语义匹配的初始裁剪框；采用强化学习算法，对初始裁剪框进行动态优化，得到多个候选裁剪图像；采用多维度评分机制对各候选裁剪图像进行评分，并基于各候选裁剪图像的得分，确定出目标裁剪图像。本发明通过基于图像特征和文本特征确定初始裁剪框，再利用强化学习算法，设计美学评估结果、语义相似度评分和边界约束的复合奖励函数来优化裁剪框，最终自动高效地生成符合用户意图的最佳图像美学裁剪结果，实现了美学质量与语义一致性的最优平衡。

技术关键词

图像裁剪方法强化学习算法美学语义预定义动作评分机制文本特征向量图像特征向量图像裁剪装置非暂态计算机可读存储介质交叉注意力机制图像多模态融合特征策略文本编码器图像编码器图像处理技术处理器

系统为您推荐了相关专利信息

小样本故障图像检测方法、系统、设备及存储介质

图像检测方法图像检测模型样本解码器视觉特征

一种基于向量数据库和大模型的数据处理系统及方法

数据处理系统索引自然语言模块词嵌入模型

模型训练方法、装置、设备、存储介质及车辆

标签图像语义分割模型模型训练方法导流

钢结构桥梁锈蚀病害语义分割方法、装置、设备及介质

钢结构桥梁图像块语义分割方法语义分割算法图片

一种基于相似性推荐的居住区景观平面图生成方法、系统、终端及存储介质

居住区景观平面图生成方法布局

基于文本引导的图像裁剪方法、装置、设备和存储介质

站点导航

APP 下载