摘要
本发明提供一种基于大语言模型的术语识别方法及系统,涉及数据存储技术领域,方法包括:获取待识别文本数据;对待识别文本数据进行分词处理;提取分词处理得到的各个分词的分词特征;利用各个分词的分词特征,通过基于术语权重的N‑gram大语言模型,提取各个分词的加权词向量;根据各个分词的加权词向量,通过三层堆叠双向长短期神经网络,计算待识别文本数据属于术语的概率值;判断待识别文本数据属于术语的概率值是否大于预设概率值;若是,将待识别文本数据确定为术语;否则,将待识别文本数据确定为非术语。本发明可以考虑上下文信息,识别复杂的术语,提升术语识别的准确性。
技术关键词
加权词向量
术语识别方法
分词
大语言模型
文本
三元组
计算机可读指令
数据存储技术
序列
识别系统
滑动窗口
矩阵
参数
存储器
处理器
力矩
频率
系统为您推荐了相关专利信息
大语言模型
知识图谱构建
模版
文章
构建知识图谱
音频生成方法
声学特征
多尺度特征提取
情感特征
人机交互方式
大语言模型
非易失性存储介质
文本
信息处理方法
实体
配电系统负荷
负荷转供
策略评价装置
大语言模型
评价方法