摘要
本发明公开了一种基于面部动态捕捉的中文唇语识别方法,具体步骤为:使用深度相机采集面部连续像;对连续图像进行三维面部关键点估计,并计算面部动态特征;将面部动态特征输入到唇语识别模型中,得到拼音类别的概率分布;使用大语言模型根据拼音类别的概率分布进行文字序列预测,生成中文唇语识别结果。本发明创新性地引入了深度摄像头进行数据采集,提供了深度信息作为输入,有效增强了模型在低光照环境下的表现。同时,模型训练数据覆盖了更加多样化的生活场景,更贴合实际应用需求。因为直接利用面部动态数据,模型省掉了复杂的3D卷积预处理网络,使得模型能够快速高效处理数据。因此该技术具有广泛应用于智能手机/智能移动设备的潜力。
技术关键词
中文唇语识别方法
面部关键点
拼音
深度相机
大语言模型
动态
坐标
深度图
智能移动设备
编码器
图像
平滑算法
解码器
序列
发音
深度值
智能手机
系统为您推荐了相关专利信息
配送机器人
超声波传感器
多传感器
主控模块
电机控制器