摘要
本公开提供了一种样本对生成、大模型的训练、图像检索方法及装置、设备和介质,涉及人工智能技术领域,尤其涉及计算机视觉、深度学习、大模型等技术领域,可应用于OCR等场景。该样本对生成方法包括:对图像样本进行处理,得到对象信息;根据提示词信息和对象信息,生成图像说明文本,其中,提示词信息包括系统提示信息和任务提示信息,图像说明文本用于描述图像样本的属性;以及,根据图像样本和图像说明文本,生成样本对。
技术关键词
多模态
样本
编码特征
图像特征提取
特征提取模块
视觉特征
检索对象
图像检索方法
文本行
印章
变换器
光学字符识别
文本识别
输入模块
图像检索装置