一种视觉语言大模型的图像识别方法、装置、设备及介质

正文

推荐专利

申请号：CN202411364609

申请日期：2024-09-29

公开号：CN118865218B

公开日期：2025-01-28

类型：发明专利

摘要

本申请公开了一种视觉语言大模型的图像识别方法、装置、设备及介质，首先构建用于进行图像识别的新闻图像数据集，然后利用新闻图像数据集训练视觉编码分类器模型，将预测图像输入视觉编码分类器模型，与提示文本相结合识别增强提示文本，最后将增强提示文本输入至文本解码器得到分类结果，通过解码过程提取并整合所有相关信息，确保输出的文本不仅准确反映了图像的内容，还蕴含了更深层次的语境理解。提升了视觉语言大模型在图像识别任务上的能力，尤其是在处理新闻图像这类特定领域内容时展现出更高的识别精度和理解深度。

技术关键词

分类器模型图像识别方法模块编码特征文本编码器分块饱和度通道数据图像识别装置累积分布函数计算机设备视觉列表缩放参数亮度解码器

系统为您推荐了相关专利信息

一种基于大模型的精准搜索方法、装置及设备

搜索方法实体画像条目大语言模型

烟支组分检测装置及基于YOLOv8-PSW的烟支组分检测方法

工控计算机空间金字塔池化烟丝工业相机载物台

云计算资源的自适应分配方法、装置、设备及介质

资源分配节点虚拟机集合条件依赖关系蚂蚁算法

基于颗粒接触的柔性生物及拦截模型构建方法和仿真装置

模型构建方法柔性小颗粒拦截装置仿真装置

一种基于图像转换的标签打印平台系统

打印模板打印平台系统标签智能分析模块状态监测模块

一种视觉语言大模型的图像识别方法、装置、设备及介质

站点导航

APP 下载