摘要
本申请公开了一种多模态商品信息提取方法、系统、设备、介质及产品,涉及图像处理领域,该方法包括:对商品详情页图片进行预处理;采用调试好的文字识别指令模板识别预处理后的商品详情页图片中的文字,得到文本数据;识别文本数据中的脚注及脚注内容,并将脚注替换为对应的脚注内容,生成格式化后的文本数据;基于格式化后的文本数据确定商品信息。本申请可高准确率地提取商品详情页图片中的文字,并对文字进行格式化以及脚注处理。
技术关键词
商品信息提取方法
商品详情页
格式化
图片
文本
数据
多模态
模板
信息提取系统
指令
识别模块
处理器
计算机程序产品
样本
计算机设备
图像处理
可读存储介质
存储器
系统为您推荐了相关专利信息
文本内容特征
超文本标记语言
告警方法
归因
皮尔逊相关系数