摘要
本发明涉及政务数据处理技术领域,特别是涉及一种基于机器学习的数据处理方法及系统,本发明在采用注意力机制对双向长短期记忆网络模型进行文本特征提取时,对传统的注意力机制计算权重的公式进行改进,引入了词频作为权重的计算指标,从而使得在注意力机制聚焦过程中对词语的权重的赋值更为精确;同时,根据出现频率确定该词的融合权重,可以有效突出重点词在文本向量中的作用,而出现频率较低的词,和政务系统的中心思想的相关关系则相对较弱,因此,采用固定权重进行分词融合,可有效提高文本向量的提取时间;本实施例根据政务系统的文本特点,在进行分词融合时,采用分段权重融合的方式对所述分词进行融合,以提高文本向量的提取准确度。
技术关键词
数据处理方法
文本
分词
机器学习算法
注意力机制
词语
双向长短期记忆
政务数据处理技术
政务系统
数据处理系统
停用词表
频率
优化器
分段
模块
索引
指标
定义
系统为您推荐了相关专利信息
语音识别网络
翻译系统
实时语音
语种识别
梅尔频率倒谱系数
RFID标签
合规性检测方法
二维图像数据
清洁工具
动作检测模型
生成提示信息
文本
电子书
图像生成模型
大语言模型
盾构掘进姿态
盾构姿态
预测系统
事件触发机制
皮尔逊相关系数
实体识别方法
多头注意力机制
LSTM神经网络
双通道神经网络
文本特征向量