摘要
本发明提供一种基于政务服务数据的多源异构语料融合方法及系统,获取政务服务中多个数据源的原始语料集合,对原始语料集合中的各语料单元进行跨模态语义对齐处理,生成与各语料单元对应的规范化数据块,分别对规范化数据块进行多模态语义编码,得到各语料单元的语义特征向量,并对规范化数据块之间的关联属性集进行拓扑结构编码,生成全局结构关系图,基于全局结构关系图中的节点连接权重对语义特征向量进行动态权重分配,生成融合权重矩阵,并对语义特征向量进行跨模态特征融合,得到目标语义嵌入表示,生成与政务服务关联的标准化语料库。本发明解决了非均匀分布语料单元的语义聚合难题,大幅提升政务数据治理效率与跨部门协同能力。
技术关键词
拓扑结构编码
语义标签
跨模态
动态权重分配
表头
政务
倒排索引结构
多模态
非结构化文本
结构化日志数据
关系
融合方法
网络
生成表格