摘要
本申请提供一种通用仪表图像处理方法、装置及电子设备,适用于多种类型仪表的识别与读数任务。该方法包括:获取目标仪表图像和目标问题文本;将目标仪表图像和目标问题文本输入训练后的视觉语言模型,以通过视觉语言模型在预定义技能函数集中匹配出多个候选技能函数;通过视觉语言模型基于各个候选技能函数的输入输出依赖关系,构建多个候选技能函数对应的技能函数操作链;按照技能函数操作链的顺序执行技能函数操作链中的技能函数,获得目标问题文本对应的最终答案。
技术关键词
文本
通用仪表
光学字符识别
刻度
样本
视觉
图像处理方法
机器可读指令
答案
多模态
语义
指针
电子设备
图像处理装置
关键点
处理器
输入模块