摘要
本发明属于但不限于数据分析技术领域,公开了一种基于bag‑of‑words相似度分析的海外企业归属行业确定方法,获取企业相关介绍文本;对获取的文本信息和词典进行预处理;对预处理后的文本信息和词典进行文本特征提取和词典特征提取;文本与词典相似度计算,使用Jaccard算法计算文本词袋E与行业组词袋D的重合度;词典行业识别;对待识别文本与已识别出行业的企业文本进行文本相似度计算;文本行业识别,企业行业识别。本发明使用bag‑of‑words方法,通过多重词袋间的相似度分析,最终基于词袋的重合度得到行业的匹配度,对海外企业进行归属行业识别,提升识别海外企业归属行业的可行性、准确性和可持续更新性。
技术关键词
文本
企业
行业词典
信息数据处理终端
语句
词语
层级
特征值
识别模块
数据分析技术
计算机设备
处理器
矩阵
分词
特征提取模块
算法
可读存储介质
存储器