一种基于双次识别定位增强的移动应用无障碍字幕识别方法和装置

AITNT
正文
推荐专利
一种基于双次识别定位增强的移动应用无障碍字幕识别方法和装置
申请号:CN202411808250
申请日期:2024-12-10
公开号:CN119763089B
公开日期:2025-11-18
类型:发明专利
摘要
一种基于双次识别定位增强的移动应用无障碍字幕识别方法和装置,其方法包括,通过自动化遍历脚本自动采集移动应用无障碍字幕数据集,构建训练和测试数据集,并在训练测试过程中记录错误案例;进行图像预处理优化;基于优化后的模型在训练测试中产生的错误案例,采取去除下划线及应用基于像素列连续性的切分算法策略;根据测试结果中出现的未识别到字符情况,修改处理流程,仅调用文字内容识别模块,并基于YOLO训练一个移动应用无障碍字幕文本位置目标检测模型基于YOLO再次训练一个字幕消息框位置检测模型,通过先定位消息框位置,再定位文本位置的二次识别方法。本发明在背景干扰、字幕过长及多行字幕情况下,展现出较高的鲁棒性和准确性。
技术关键词
字幕识别方法 识别模块 定位文本位置 二次识别方法 消息 图片 色块 图像 检测模型训练 位置检测模块 数据 脚本 像素 连续性 黑色 格式 识别装置 处理器
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号