摘要
本发明公开了一种多模态科技创新资源数据智能筛选方法。首先,通过对研发投入、科研人员数量、专利数量及新产品销售收入占比设定准入阈值,从而初步筛选出符合最低要求的候选企业;然后,对不同来源的企业数据进行统一化预处理,解决多源多格式问题,并结合编辑距离、余弦相似度等方法实现企业实体解析与归并;在此基础上,利用文本挖掘与词频‑逆文档频率等手段提取企业简介、相关新闻等文本语义特征,与数值特征一起构建多模态特征向量;最后,采用综合距离度量进行K均值聚类分析,迭代计算聚类中心并将企业划分至相似度最高的簇,得到多模态聚类结果。
技术关键词
智能筛选方法
科技创新
文本
多模态
数值
实体
企业
数据
收入
指标
均值聚类方法
资源
度量
关键词
跨模态
定义
规模
格式
嵌入特征