摘要
本发明涉及计算机视觉技术领域,特别涉及一种基于预训练微调的低资源语言唇语识别方法及装置。方法包括:利用大量的英语视频数据集对模型进行预训练,以确保模型获得强大的泛化能力和有效的唇部特征表达能力;随后加载预训练模型权重后,通过少量藏语唇语数据集对模型进行全参数微调,以克服藏语视频数据稀缺的挑战。在推理解码阶段,引入专门针对藏语文本训练的Transformer语言模型,有效降低了唇语识别过程中可能出现的同音词混淆问题,从而提高了句子级别藏语唇语识别的准确性。总体架构经上述创新结构与方法改进,成功实现了对低资源语言的有效纯视觉唇语识别。
技术关键词
低资源语言
唇语识别系统
唇语识别方法
视觉特征提取
分词模型
文本
编解码
视频数据特征
语音识别技术
英语
解码器架构
两阶段
标签
特征提取器
网络
系统为您推荐了相关专利信息
多模态
低资源语言
图片
知识图谱构建
模型预训练
疼痛评估方法
大语言模型
生理传感器
数据
疼痛评估系统
深度学习系统
人体关节点
空间特征提取
图像采集模块
深度学习模型
船只监测方法
分布特征
可见光图像
融合特征
特征模板