摘要
本发明为基于语义的表格图像及其标注数据自动生成方法与系统,其中方法包括以下步骤:获取单表头语义数据集和多表头语义数据集,所述单表头语义数据集中每一条语义数据包含单行表头和多行具体值,所述多表头语义数据集中每一条语义数据包含多行表头和多行具体值;基于单表头语义数据集和多表头语义数据集构造表格图像构造表格图像,包括单行表头图像、多行表头图像和层级表格图像;基于预设的基础模板,生成基础标注数据;将所述基础标注数据输入预设的大语言模型,利用Few‑shot的学习方式,生成标注变体;结合所述表格图像、基础模板和标注变体,生成不同的标注数据,获得所有标注数据和带有不同标注数据的表格图像。
技术关键词
数据自动生成方法
表头
表格
语义
文本
基础
数据自动生成系统
模板
层级
三元组
图像增强
数据获取模块
输出模块
处理器
生成规则
字体
数据格式
系统为您推荐了相关专利信息
手工特征
多源特征融合
多模态
样本
音频数据处理
图像生成方法
文本生成图像
映射关系表
图像生成技术
图像生成系统