中文唇读识别方法及装置

AITNT
正文
推荐专利
中文唇读识别方法及装置
申请号:CN202410955569
申请日期:2024-07-17
公开号:CN118506457A
公开日期:2024-08-16
类型:发明专利
摘要
本发明提供一种中文唇读识别方法及装置,该方法包含:构建一拼音识别子模型,该拼音识别子模型接收连续视频帧的嘴唇图像作为输入,将该嘴唇图像转换为拼音序列;构建一汉字识别子模型,将所述汉字识别子模型与所述拼音识别子模型输出端连接,该汉字识别子模型接收所述拼音序列作为输入,将该拼音序列转换为汉字序列;将预训练好的所述拼音识别子模型、所述汉字识别子模型结合,构建一唇读模型并进行联合优化训练,所述唇读模型输出预测对应的中文句子。该方法克服了嘴唇图像到汉字序列直接翻译时存在的模糊性,显著提高中文唇读识别模型的准确率和鲁棒性。
技术关键词
拼音 汉字 编码器模块 唇读模型 序列 唇形特征 识别方法 注意力机制 图像 输出端 解码器 视频 识别装置 鲁棒性 参数 误差
系统为您推荐了相关专利信息
1
基于矾花目标追踪的水厂混凝沉淀效果预估方法、系统、介质及设备
沉淀池 混凝沉淀 浊度 在线 仪表
2
一种基于强化学习的自适应控制器调优方法
分层策略 调优方法 生成控制器 多层前馈神经网络 元学习优化方法
3
一种基于知识库的场景图谱导航方法、设备及介质
导航方法 图谱 房间 机器人 场景
4
基于全流程工具链的AI数字人实训方法及相关组件
学生 三维人脸网格模型 视频 神经网络训练 账号
5
一种网络空间安全风险智能识别方法及系统
智能识别方法 日志 流量采集设备 网络流量数据 风险
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号