摘要
本申请公开了一种视觉语言大模型的图像识别方法、装置、设备及介质,首先构建用于进行图像识别的新闻图像数据集,然后利用新闻图像数据集训练视觉编码分类器模型,将预测图像输入视觉编码分类器模型,与提示文本相结合识别增强提示文本,最后将增强提示文本输入至文本解码器得到分类结果,通过解码过程提取并整合所有相关信息,确保输出的文本不仅准确反映了图像的内容,还蕴含了更深层次的语境理解。提升了视觉语言大模型在图像识别任务上的能力,尤其是在处理新闻图像这类特定领域内容时展现出更高的识别精度和理解深度。
技术关键词
分类器模型
图像识别方法
模块
编码特征
文本编码器
分块
饱和度
通道
数据
图像识别装置
累积分布函数
计算机设备
视觉
列表
缩放参数
亮度
解码器
系统为您推荐了相关专利信息
工控计算机
空间金字塔池化
烟丝
工业相机
载物台
资源分配
节点
虚拟机集合
条件依赖关系
蚂蚁算法
打印模板
打印平台系统
标签
智能分析模块
状态监测模块