摘要
本发明公开了一种基于可信视位素获取的中文唇语识别方法,所述方法包括以下步骤:S1.数据采集与预处理:以获得刻画唇部运动视频数据;S2.深度聚类:对刻画唇部运动视频数据进行深度聚类,获得聚类分布的视位素类别数量,相应的视位素类别及视位素库,从而获得与所述刻画唇部运动视频数据相应的带视位素类别标注的逐帧图像数据;S3.基于视位素中间表示的级联汉字字符序列识别:基于带视位素类别标注的逐帧图像数据进行特征提取,实现以视位素为中间表示的级联汉字字符序列识别。本方法能够降低识别预测的累积误差,提升基于视位素的唇语识别性能,打破基于视位素的唇语识别的准确率瓶颈。
技术关键词
中文唇语识别方法
运动视频数据
编解码单元
序列识别
编码器
多头注意力机制
字符
汉字
时空卷积神经网络
特征提取器
深度聚类方法
神经网络模型
卷积神经网络提取
素子
网络模块
图像
高斯混合模型
前馈神经网络
系统为您推荐了相关专利信息
故障场景
深度神经网络
电力系统仿真软件
生成方法
时间卷积网络
调度控制器
学习方法
特征提取网络
非线性
编码向量
红外热成像仪
PE管道电熔
神经网络模型
电熔管件
图像重建
解码器
标记特征
注意力机制
语义分割模型
图像语义分割方法