摘要
本发明提供一种中文唇读识别方法及装置,该方法包含:构建一拼音识别子模型,该拼音识别子模型接收连续视频帧的嘴唇图像作为输入,将该嘴唇图像转换为拼音序列;构建一汉字识别子模型,将所述汉字识别子模型与所述拼音识别子模型输出端连接,该汉字识别子模型接收所述拼音序列作为输入,将该拼音序列转换为汉字序列;将预训练好的所述拼音识别子模型、所述汉字识别子模型结合,构建一唇读模型并进行联合优化训练,所述唇读模型输出预测对应的中文句子。该方法克服了嘴唇图像到汉字序列直接翻译时存在的模糊性,显著提高中文唇读识别模型的准确率和鲁棒性。
技术关键词
拼音
汉字
编码器模块
唇读模型
序列
唇形特征
识别方法
注意力机制
图像
输出端
解码器
视频
识别装置
鲁棒性
参数
误差
系统为您推荐了相关专利信息
分层策略
调优方法
生成控制器
多层前馈神经网络
元学习优化方法
智能识别方法
日志
流量采集设备
网络流量数据
风险