摘要
本发明提供了一种符合E2B标准的XML文件生成方法、系统、设备及介质,涉及医药监管数据提交领域,其方法包括以下步骤:对输入的PDF文件进行预处理,生成标准化图像序列;通过多模态AI视觉模型识别图像序列中的文本、表格及公式元素,并结合医药领域词典进行语义纠错生成结构化数据;基于预设的E2B语义映射规则,将所述结构化数据转换为XML节点标签;将XML节点标签注入动态构建的XSD模板,通过多层校验生成初始XML文件;结合自适应复核机制,输出标准化XML文件。其通过多模态AI视觉模型、UMLS医学本体库、XSD驱动校验及自适应复核机制,实现了非结构化医疗文档到E2B标准XML的高精度、合规且可信的转换。
技术关键词
文件生成方法
生成结构化数据
医药知识图谱
多模态
语义
节点
文件生成系统
标签
孪生神经网络
流水线架构
动态纠错
序列
嵌套表格
识别置信度
图像
文本
CRF模型
视觉
编译规则
系统为您推荐了相关专利信息
特征融合网络
融合特征
风电设备
注意力
语义特征
多尺度语义特征
采样模块
编码器
卷积模块
解码器
翻译模型
深度特征提取网络
图像翻译方法
图像转换模型
无标签数据
文本检索方法
BERT模型
图像特征提取
自然语言文本
图像共享特征