摘要
针对现有机器生成文本溯源技术中单一特征难以准确追溯机器生成文本来源的问题,本发明提出了一种基于特征融合的机器生成文本溯源方法和系统,构建了一种新的机器生成文本溯源模型,通过结合文本的统计特征和语义特征,为模型提供了更丰富的特征表示。首先利用词嵌入技术将输入文本转换为语义向量,同时使用GPT‑2模型计算文本的预测概率、累积概率和信息熵,作为文本的统计向量。接着,通过GRU、Transformer编码器进一步提取特征,并通过线性层对其进行线性变换,以获取文本的语义特征和统计特征,再通过特征融合策略对其进行整合。最后,融合后的特征向量经分类器分析后,输出文本具体来源。
技术关键词
文本溯源方法
语义向量
词嵌入技术
信息熵
溯源数据
BERT模型
统计特征
编码器
Softmax函数
注意力
语义特征
非线性
矩阵
高维向量空间
文本检测模型
元素
网络
时间序列特征
系统为您推荐了相关专利信息
智能工作台
特征向量库
搜索优化方法
搜索词
搜索意图
神经元网络模型
超短脉冲强激光
反馈控制器
电压检测方法
展开式
生成自然语言
文本
预训练语言模型
机器学习分类算法
弱分类器