摘要
本申请公开了一种基于连续触控手势的实时语音生成方法及其相关装置,方法包括:采集用户在触控设备上执行连续手势时产生的数据点序列,数据点序列包括数据点的坐标、时间戳和压力值;从数据点序列中提取静态特征序列和动态特征序列,将数据点序列、静态特征序列和动态特征序列融合得到手势特征向量序列;静态特征序列包括相邻两个数据点之间的坐标差值;动态特征序列包括速度、加速度、压力变化率和/或轨迹曲率;通过生成模型对手势特征向量序列进行处理,生成声学特征序列;通过声码器将声学特征序列合成为音频数据。本申请实现了将连续手势转换为连续的语音流,避免了传统离散输入的延迟和卡顿;不依赖于昂贵的专用硬件,降低了使用门槛。
技术关键词
实时语音
手势
序列
声学特征
静态特征
生成方法
数据
存储程序代码
触控输入模块
动态
解码器
样本
注意力
编码器
生成系统
声码器
坐标
加速度
模型训练模块
可读存储介质