摘要
本发明提供非结构化文本数据的计算方法及系统,涉及自然语言处理技术领域,包括对输入的非结构化文本数据进行多层级处理,根据词频分布动态调整分词粒度,并结合上下文语义信息构建词性共现矩阵,提取实体信息,融合词性共现矩阵和实体信息生成层次化语义标签序列。采用不同卷积核尺寸的特征提取单元提取特征表示,并计算不同语义层次间余弦相似度建立关联权重矩阵。基于实体信息构建语义增强向量,并进行对抗训练,得到多模态语义特征矩阵。计算融合特征向量间的语义相似度进行聚类,并根据类簇的复杂度、一致性和模糊度设定难度权重排序后输入分类器,迭代优化分类结果,得到计算结果。
技术关键词
噪声强度系数
层次化语义
非结构化文本
样本
上下文语义信息
分词
分类器参数
训练分类器
语义特征
随机噪声
特征提取单元
实体
序列
特征提取器
转移概率矩阵
局部敏感哈希方法
复杂度
系统为您推荐了相关专利信息
滑坡预警方法
传感器监测
多传感器
监测边坡
环境传感器
BP神经网络模型
综合法
模糊综合评价法
三维地质模型
城市地下空间
大语言模型
序列
广度优先搜索算法
深度优先搜索算法
文本
非道路工程机械
多层LSTM模型
环境相对湿度
样本
预测装置