摘要
本发明涉及一种用于图像描述任务的视觉语言建模系统及方法,该系统利用视觉语言模型针对输入图像进行描述文本生成,包括:视觉编码器和文本编码器分别连接至视觉特征提取模块和文本特征提取模块,视觉特征提取和文本特征提取模块均连接至特征融合模块,特征融合模块连接有语义生成模块,该方法包括:收集与图像描述任务相关的图像样本及对应文本数据;利用预处理后的图像样本及对应文本数据,采用迁移学习策略、结合损失函数对预训练视觉语言模型进行微调;将图像描述任务对应的当前图像输入微调训练后的语言视觉模型,输出得到对应描述文本。与现有技术相比,本发明能够提升对专业图像特征的捕捉与描述能力,提高生成描述的连贯性和语义准确性。
技术关键词
视觉特征提取
建模系统
高维向量空间
文本编码器
语言建模方法
特征提取模块
图像嵌入
迁移学习策略
序列
注意力机制
语义
融合特征
矩阵
监督学习策略
系统为您推荐了相关专利信息
蒙汉神经机器翻译方法
文本生成图像
蒙古语
融合图像信息
图像转换方法
胸部CT影像
风险预警方法
呼吸道
风险评估模型
多模态特征
深度卷积神经网络
融合特征
注意力
输出特征
全局信息融合