摘要
本申请提供了一种对话数据生成方法、装置、设备、介质及计算机程序产品,其中,对话数据生成方法,包括:根据原始语音对话数据,获取至少一条样本对话路径;所述样本对话路径所包含的各聚类标签分别对应一个对话片段类别;获取所述样本对话路径中的聚类标签之间的转移概率,形成对话转移矩阵;根据所述对话转移矩阵,生成模拟对话路径;针对所述模拟对话路径进行筛选,得到目标对话路径;根据所述目标对话路径,得到模拟对话数据。本方案能够支持基于真实对话文本(即原始语音对话数据)生成模拟对话数据,确保生成的数据结构符合实际场景,提高所生成的对话数据的准确性,很好的解决现有技术中获取对话数据的方案存在准确性低的问题。
技术关键词
数据生成方法
语音对话数据
标签
样本
数据生成装置
计算机程序产品
聚类
矩阵
文本
数据生成设备
处理器
大语言模型
模块
可读存储介质
存储器
指令