一种视觉语言大模型的图像识别方法、装置、设备及介质

AITNT
正文
推荐专利
一种视觉语言大模型的图像识别方法、装置、设备及介质
申请号:CN202411364609
申请日期:2024-09-29
公开号:CN118865218B
公开日期:2025-01-28
类型:发明专利
摘要
本申请公开了一种视觉语言大模型的图像识别方法、装置、设备及介质,首先构建用于进行图像识别的新闻图像数据集,然后利用新闻图像数据集训练视觉编码分类器模型,将预测图像输入视觉编码分类器模型,与提示文本相结合识别增强提示文本,最后将增强提示文本输入至文本解码器得到分类结果,通过解码过程提取并整合所有相关信息,确保输出的文本不仅准确反映了图像的内容,还蕴含了更深层次的语境理解。提升了视觉语言大模型在图像识别任务上的能力,尤其是在处理新闻图像这类特定领域内容时展现出更高的识别精度和理解深度。
技术关键词
分类器模型 图像识别方法 模块 编码特征 文本编码器 分块 饱和度 通道 数据 图像识别装置 累积分布函数 计算机设备 视觉 列表 缩放参数 亮度 解码器
系统为您推荐了相关专利信息
1
一种基于大模型的精准搜索方法、装置及设备
搜索方法 实体 画像 条目 大语言模型
2
烟支组分检测装置及基于YOLOv8-PSW的烟支组分检测方法
工控计算机 空间金字塔池化 烟丝 工业相机 载物台
3
云计算资源的自适应分配方法、装置、设备及介质
资源分配 节点 虚拟机集合 条件依赖关系 蚂蚁算法
4
基于颗粒接触的柔性生物及拦截模型构建方法和仿真装置
模型构建方法 柔性 小颗粒 拦截装置 仿真装置
5
一种基于图像转换的标签打印平台系统
打印模板 打印平台系统 标签 智能分析模块 状态监测模块
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号