摘要
本发明公开了一种自然场景图像描述生成方法及系统,属于计算机视觉以及自然语言处理技术领域。本发明采用融合注意力机制的编码器‑解码器架构设计图像描述模型,构建基于向量梯度非均匀正则化的图像特征编码模块,增强图像中目标之间互动关系的准确性;构建基于特征贡献和标准差控制优化的文本特征解码模块,提高捕捉图像视觉信息的完整性和图像描述技术在各种场景下的泛化能力和适应性。本发明能够提升面向自然场景的图像描述的准确性、多样性和通用性,从而生成高精度、信息丰富和鲁棒性强的自然语言描述。
技术关键词
自然场景图像
图像特征编码
文本特征向量
聚类特征提取
生成方法
多尺度
图像特征向量
解码模块
解码模型
特征提取模块
融合注意力机制
拉普拉斯金字塔
执行矩阵乘法
融合图像特征
生成自然语言
系统为您推荐了相关专利信息
大语言模型
自动生成系统
工作流引擎
自动生成方法
视觉
数据采集服务器
认证服务器
客户端
审核服务器
标识
分散搜索算法
机器人路径规划方法
初始化方法
聚类
策略