摘要
本发明公开了一种基于知识增强的文本主题抽取方法、装置及电子设备,该方法包括:对待抽取文本进行前处理;对前处理后的待抽取文本进行篇幅判断,将待抽取文本分为长文本和短文本;当待抽取文本为长文本时,对前处理后的待抽取文本进行词嵌入处理,得到待抽取文本特征;将待抽取文本特征与获得的与待抽取文本特征匹配的领域特征进行特征融合,得到融合特征;对融合特征进行主题抽取,得到文本主题;当待抽取文本为短文本时,对前处理后的待抽取文本进行关键词抽取,得到文本主题。本发明提出了一种行业通用且面对不同规模不同质量文本皆有效的主题抽取方法,解决了相关主题抽取模型无法区分领域特征、鲁棒性不强,且过于依赖文本特性的问题。
技术关键词
主题抽取方法
文本
融合特征
关键词
抽取装置
模块
电子设备
算法
处理器
存储器
鲁棒性
分词
聚类
规模
数据
系统为您推荐了相关专利信息
牙齿健康
交叉注意力机制
文本
大语言模型
多模态
机场场面监视视频
融合检测方法
时空融合特征
航空器
多模态
智能问答方法
耕地
深度学习算法
大规模文本数据
深度局部特征
数据查询方法
大语言模型
文本
数据查询技术
生成自然语言