一种用于图像描述任务的视觉语言建模系统及方法

正文

推荐专利

申请号：CN202510627416

申请日期：2025-05-15

公开号：CN120599420A

公开日期：2025-09-05

类型：发明专利

摘要

本发明涉及一种用于图像描述任务的视觉语言建模系统及方法，该系统利用视觉语言模型针对输入图像进行描述文本生成，包括：视觉编码器和文本编码器分别连接至视觉特征提取模块和文本特征提取模块，视觉特征提取和文本特征提取模块均连接至特征融合模块，特征融合模块连接有语义生成模块，该方法包括：收集与图像描述任务相关的图像样本及对应文本数据；利用预处理后的图像样本及对应文本数据，采用迁移学习策略、结合损失函数对预训练视觉语言模型进行微调；将图像描述任务对应的当前图像输入微调训练后的语言视觉模型，输出得到对应描述文本。与现有技术相比，本发明能够提升对专业图像特征的捕捉与描述能力，提高生成描述的连贯性和语义准确性。

技术关键词

视觉特征提取建模系统高维向量空间文本编码器语言建模方法特征提取模块图像嵌入迁移学习策略序列注意力机制语义融合特征矩阵监督学习策略

系统为您推荐了相关专利信息

融合图像信息的多模态蒙汉神经机器翻译方法

蒙汉神经机器翻译方法文本生成图像蒙古语融合图像信息图像转换方法

呼吸道传染病风险预警方法及系统

胸部CT影像风险预警方法呼吸道风险评估模型多模态特征

基于统一空间映射的农业多模态问答模型及构建方法

多模态问答模型语义数据分布文本编码器

基于双重注意力与混合基函数的六自由度视觉惯性里程计方法及设备

深度卷积神经网络融合特征注意力输出特征全局信息融合

一种基于跨模态眼动注意力感知的复杂场景指示表达理解方法

跨模态人眼注意力注视点坐标高斯模糊方法

一种用于图像描述任务的视觉语言建模系统及方法

站点导航

APP 下载