一种基于OCR与动态蒙版标注的多文本字段语音交互方法

正文

推荐专利

申请号：CN202510636073

申请日期：2025-05-16

公开号：CN120561268A

公开日期：2025-08-29

类型：发明专利

摘要

本发明公开了一种基于OCR与动态蒙版标注的多文本字段语音交互方法，涉及智能界面交互技术领域，包括实时截取屏幕内容进行OCR识别，得到OCR识别结果；对OCR识别结果进行去重和聚类，生成文本字段组；创建透明蒙版图层覆盖当前应用界面，依次对文本字段组分配数字标签并根据标签排序规则进行排序；对用户的语音输入指令进行识别，并使用Levenshtein距离算法修正语音输入指令误差，解析指令，判断用户意图选择的文本字段，确定文本字段的最终匹配结果；记录用户行为并优化标签排序规则。本发明提高对动态界面和多变信息的适应性，增强系统在实时交互中的效率和准确性，提升用户体验和交互效率。

技术关键词

语音交互方法文本语音输入指令字段截取屏幕内容动态界面交互技术意图聚类算法定义标签坐标哈希算法版图误差哈希表

一种基于OCR与动态蒙版标注的多文本字段语音交互方法

站点导航

APP 下载