摘要
本申请公开了一种音频文本对齐方法、装置、设备及存储介质,涉及语音处理技术领域,包括:获取初始音频数据和相应的转录文本,获取初始音频数据对应的节奏变化率指数,并对转录文本进行语义分析,以获取各初始语义单元的重要程度;根据重要程度确定出目标语义单元,并将各目标语义单元与初始音频数据进行初步匹配,以确定各目标语义单元对应的锚点位置;基于节奏变化率指数为初始音频数据分配时间戳,以获取相应的目标音频数据,基于各锚点位置将目标音频数据划分为不同音频片段,并基于时间戳将音频片段与转录文本进行对齐。通过结合音频的节奏特性与文本的语义对音频与文本进行对齐,保证了音频和文本的对齐精度。
技术关键词
音频
语义
对齐方法
文本
数据
指数
话题
锚点
语音
节点
复杂度
动态地
句法结构
对齐装置
密度
对齐模块
核心
风格
分析模块
可读存储介质
系统为您推荐了相关专利信息
水文
监测预警方法
监测预警系统
机器学习模型
数据采集模块
在线监测方法
超声波换能器阵列
巷道空间
声波特征
时间校正
深度信念网络
最佳特征子集
生成对抗网络
风险评估算法
数据
机器学习模型
交互式车辆
定损方法
多模型
多媒体