摘要
本申请提供了一种语音文本对齐模型训练方法、装置、电子设备及存储介质,涉及大模型领域。其中,该方法包括:获取预训练模型和文本数据,并基于所述预训练模型针对文本数据中的各单词进行时间信息预测,获得对应各所述单词的时间预测结果;获取语音数据,并基于所述时间预测结果对所述语音数据进行文本重建,获得重建文本数据;基于动态规划算法对所述重建文本数据和所述语音数据进行最优对齐路径预测,获得最优对齐路径;基于所述最优对齐路径对所述预训练模型进行参数调整,获得语音文本对齐模型。本申请解决了相关技术中语音文本对齐模型的适用性不高的问题。
技术关键词
预训练模型
动态规划算法
模型训练方法
文本特征向量
数据
语音编码器
计算机可读指令
文本编码器
文本段落
电子设备
模型训练装置
参数
处理器
模块
存储器
注意力
序列
时序
系统为您推荐了相关专利信息
缺陷检测方法
深度学习模型
三维图像数据
深度学习网络提取
可视化技术
显示模组
柔性电路板
电容
检测组件
触控感应接口
脱敏数据
数据脱敏系统
网络拓扑结构
代表
综合数据处理
交易检测方法
多模态数据融合
指纹特征数据
银行交易系统
跨模态