基于bag-of-words相似度分析的海外企业归属行业确定方法及系统

AITNT
正文
推荐专利
基于bag-of-words相似度分析的海外企业归属行业确定方法及系统
申请号:CN202411868235
申请日期:2024-12-18
公开号:CN120011561A
公开日期:2025-05-16
类型:发明专利
摘要
本发明属于但不限于数据分析技术领域,公开了一种基于bag‑of‑words相似度分析的海外企业归属行业确定方法,获取企业相关介绍文本;对获取的文本信息和词典进行预处理;对预处理后的文本信息和词典进行文本特征提取和词典特征提取;文本与词典相似度计算,使用Jaccard算法计算文本词袋E与行业组词袋D的重合度;词典行业识别;对待识别文本与已识别出行业的企业文本进行文本相似度计算;文本行业识别,企业行业识别。本发明使用bag‑of‑words方法,通过多重词袋间的相似度分析,最终基于词袋的重合度得到行业的匹配度,对海外企业进行归属行业识别,提升识别海外企业归属行业的可行性、准确性和可持续更新性。
技术关键词
文本 企业 行业词典 信息数据处理终端 语句 词语 层级 特征值 识别模块 数据分析技术 计算机设备 处理器 矩阵 分词 特征提取模块 算法 可读存储介质 存储器
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号