摘要
本发明公开了一种面向非结构化数据的自监督细粒度表示方法,包括:基于预设粒度规则对非结构化数据集进行多级切分,得到细粒度子样本集合;对每一子样本生成两种视图增强数据,得到第一视图与第二视图;输入共享参数的表示编码网络,获得对应的多层嵌入向量;构建自监督对比损失,并对表示编码网络进行初步优化;通过对多层嵌入向量进行细粒度聚类生成伪标签,构建辅助自监督损失;计算总损失,并采用梯度更新方式联合优化表示编码网络;利用联合优化后的表示编码网络对任一非结构化数据样本输出其全局表示及对应的细粒度表示集合。本发明有效解决了现有非结构化数据内部多粒度信息的有效表征及协同优化问题。
技术关键词
编码器参数
数据
样本
网络
聚类
主编码器
层级
标签
队列
注意力机制
传播算法
度函数
平滑度
定义
语义
噪声