摘要
本发明公开了一种基于混合词向量编码的文本监测方法及装置;其中方法包括:爬取舆情文本;利用BERT模型对舆情文本进行编码,得到每个字对应的字向量;对舆情文本进行分词得到多个词语;从预设的词典中查找词语对应的第一词向量;第一词向量是利用线性判别分析法对初始词向量按照类别进行词向量聚类得到的、空间各向异性改进的词向量;根据字向量得到词语对应的第二词向量,将词语对应的第一词向量和第二词向量进行合并,得到改进词向量;基于改进词向量进行舆情监测,本发明解决了现有技术使用BERT模型进行词向量编码时存在的词向量编码空间狭窄、各向异性明显的问题。
技术关键词
舆情文本
词语
新词
监测方法
BERT模型
词典
分词
分布式数据库
关系型数据库
聚类
线性
检测工具
编码模块
监测模块
存储模块
系统为您推荐了相关专利信息
滤网结构
滤网寿命监测方法
空气净化装置
参数
空气净化设施技术
多元线性回归模型
发电量
性能监测方法
数据汇总表
光伏电站
监控方法
深度估计模型优化
锻炼监测方法
信号
载波
边缘计算技术
市政道路
监测方法
多源监测数据
节点