摘要
本发明公开了一种多模态语言特征分析方法及系统,属于自然语言处理、数据挖掘技术领域,可以使得湘南历史文化资源能够被更加高效地研究和利用;包括收集湘南历史文化资源的多模态数据;对获取的多模态数据进行清洗操作,利用预设的去重算法,去除余弦相似度高于设定阈值的冗余数据;对清洗后的多模态数据,提取关键词;计算每个关键词与预设历史文化主题词的关联度,以筛选出核心关键词;对提取出每个核心关键词之间的关联性进行分析,构建数据关系图;计算数据关系图中每个节点的节点权重;基于节点权重对数据进行筛选,筛选出符合设定标准的高关联性数据;基于符合设定标准的高关联性数据,构建湘南历史文化资源的知识图谱。
技术关键词
特征分析方法
节点
多模态
图像特征提取算法
光学字符识别技术
关键词提取方法
爬虫技术
内容分析技术
特征分析系统
文本数据提取
视觉特征
核心
关系
自然语言
数据挖掘技术
资源
关键帧