摘要
本申请涉及人工智能技术领域,公开了一种视觉信息抽取方法、装置、计算机设备和介质,首先获取问题文本数据和目标图片中的内容文本数据;其次基于目标图片、问题文本数据、内容文本数据输入进行图文匹配,生成问题文本数据对应的待检查答案;并利用待检查答案、目标图片和问题文本数据进行逻辑验证,得到问题文本数据对应的候选答案;最后根据内容文本数据和问题文本数据对候选答案进行信息矫正,得到指定内容项对应的目标内容数据。相较于仅依赖目标图片和问题文本数据的方法,能够生成更准确的待检查答案;进一步地,利用逻辑验证,显著提升了候选答案的准确性;最终,通过信息矫正,得到更准确的目标内容数据,生成更准确的答案文本数据。
技术关键词
答案
文本
图片
多模态
信息抽取方法
内容项
光学字符识别
样本
图文
矫正
大语言模型
计算机设备
视觉
逻辑
可读存储介质
人工智能技术
数据获取模块
抽取装置
系统为您推荐了相关专利信息
实体识别模型
实体知识库
文本
实体识别方法
字符
生成方法
策略
摘要
采集管理方法
电力系统网络安全技术