摘要
本申请提供了一种FAQ系统的文本数据增强方法和装置,该方法包括:采用当前的FAQ系统的问答语料库中的部分原始问题文本和与部分原始问题文本对应的同义句构建训练集,且应用训练集对初始Simbert模型进行训练;采用训练后的Simbert模型对所有的原始问题文本进行同义句生成,得到各原始问题文本对应的多个同义句;采用词层面的文本增强方法对所有的原始问题文本和与所有的原始问题文本对应的同义句进行处理,得到各原始问题文本对应的第一目标同义句;对各第一目标同义句进行筛选,得到各原始问题文本对应的第二目标同义句;将所有的第二目标同义句添加至问答语料库。该方法解决了现有技术中获取原始问题文本困难的问题。
技术关键词
文本
问答语料库
构建训练集
矩阵
样本
可读存储介质
元素
关键词
程序
计算机
序列
语义
数据
存储器
标识符
解码器
处理器
编码器
参数
算法