摘要
本发明涉及自然语言处理技术领域,提出一种基于多特征的机器生成自然语言检测方法,包括获取待检测文本,并对待检测文本进行预处理,得到预处理文本;将预处理文本输入预训练语言模型的分词器进行文本分词并将分词转换为预训练语言模型可识别的词元序列,将词元序列输入预训练语言模型中进行运算,获取每个词元的未归一化预测概率;根据词元序列和每个词元的未归一化预测概率计算文本的11种特征;将11种特征拼合成一个11维向量,并输入到机器学习分类算法中进行监督学习,得到机器生成自然语言检测器;将待检测的文本输入机器生成自然语言检测器中,得到检测结果。本发明检测速度快、检测准确度稿且检测方法的可信度与透明度高。
技术关键词
生成自然语言
文本
预训练语言模型
机器学习分类算法
弱分类器
信息熵
检测器
分词
梯度提升树
序列
机器学习算法
样本
密度
透明度
逻辑
参数
人类
速度
系统为您推荐了相关专利信息
整数规划模型
内容分享平台
娱乐特征
互动特征
情绪特征
空调控制策略
环境状态信息
大语言模型
文本
机房空调控制