摘要
本公开是关于一种证件抽取大模型的强化学习方法、装置、设备及可读介质,涉及计算机技术领域。该方法在强化学习中可以基于样本证件图像与待抽取字段构建抽取指令并输入策略模型,以获取策略模型输出的文本抽取结果,一张样本证件图像对应一组多个文本抽取结果,每个文本抽取结果包括所有待抽取字段的一种字段内容;采用基于待抽取字段的约束条件构建的奖励函数确定文本抽取结果的奖励值,并根据奖励值确定每个文本抽取结果在组内的相对优势,并基于该相对优势对策略模型进行参数更新获得证件抽取大模型。该方法在无标注样本证件图像上进行强化学习省略了标注成本,获得的证件抽取大模型既实现了端到端的高效识别,且训练方法简单降低资源消耗。
技术关键词
证件图像
强化学习方法
文本
策略
字段
样本
指令
学习装置
处理器
模型更新
参数
模块
可读存储介质
计算机
电子设备
格式
存储器
资源