一种用于图像描述任务的视觉语言建模系统及方法

AITNT
正文
推荐专利
一种用于图像描述任务的视觉语言建模系统及方法
申请号:CN202510627416
申请日期:2025-05-15
公开号:CN120599420A
公开日期:2025-09-05
类型:发明专利
摘要
本发明涉及一种用于图像描述任务的视觉语言建模系统及方法,该系统利用视觉语言模型针对输入图像进行描述文本生成,包括:视觉编码器和文本编码器分别连接至视觉特征提取模块和文本特征提取模块,视觉特征提取和文本特征提取模块均连接至特征融合模块,特征融合模块连接有语义生成模块,该方法包括:收集与图像描述任务相关的图像样本及对应文本数据;利用预处理后的图像样本及对应文本数据,采用迁移学习策略、结合损失函数对预训练视觉语言模型进行微调;将图像描述任务对应的当前图像输入微调训练后的语言视觉模型,输出得到对应描述文本。与现有技术相比,本发明能够提升对专业图像特征的捕捉与描述能力,提高生成描述的连贯性和语义准确性。
技术关键词
视觉特征提取 建模系统 高维向量空间 文本编码器 语言建模方法 特征提取模块 图像嵌入 迁移学习策略 序列 注意力机制 语义 融合特征 矩阵 监督学习策略
系统为您推荐了相关专利信息
1
融合图像信息的多模态蒙汉神经机器翻译方法
蒙汉神经机器翻译方法 文本生成图像 蒙古语 融合图像信息 图像转换方法
2
呼吸道传染病风险预警方法及系统
胸部CT影像 风险预警方法 呼吸道 风险评估模型 多模态特征
3
基于统一空间映射的农业多模态问答模型及构建方法
多模态 问答模型 语义 数据分布 文本编码器
4
基于双重注意力与混合基函数的六自由度视觉惯性里程计方法及设备
深度卷积神经网络 融合特征 注意力 输出特征 全局信息融合
5
一种基于跨模态眼动注意力感知的复杂场景指示表达理解方法
跨模态 人眼注意力 注视点 坐标 高斯模糊方法
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号