摘要
本发明公开了一种对话语料的去重方法及装置、介质、计算机设备,涉及自然语言处理技术领域,可应用于数字医疗领域和金融领域,主要目的在于解决现有对话语料去重效率较低的问题。主要包括获取待去重的目标对话语料库,并从目标对话语料库中提取多个目标语料,包括用户语料、客服语料和对话事件语料;分别提取各目标语料中的无应答文本语料,对无应答文本语料的词向量转换结果进行聚类,并依据聚类结果进行去重,得到去重后的用户语料、去重后的客服语料和去重后的对话事件语料;依据所述去重后的用户语料和所述去重后的客服语料对所述去重后的对话事件语料进行文本增强,得到所述目标对话语料的去重结果。主要用于去除重复的对话语料。
技术关键词
词嵌入向量
文本
客服
聚类
计算机设备
通信接口
核心
处理器
指令
存储器
介质
自然语言
密度
算法
金融
模块
系统为您推荐了相关专利信息
检索标签
视频片段检索方法
样本
视频帧
文本检索方法
密度峰值聚类算法
电力负荷曲线
日负荷曲线
样本
聚类方法
海报生成方法
主题数据
社交平台
可视化方式
自然语言