摘要
本发明公开了一种基于OCR与动态蒙版标注的多文本字段语音交互方法,涉及智能界面交互技术领域,包括实时截取屏幕内容进行OCR识别,得到OCR识别结果;对OCR识别结果进行去重和聚类,生成文本字段组;创建透明蒙版图层覆盖当前应用界面,依次对文本字段组分配数字标签并根据标签排序规则进行排序;对用户的语音输入指令进行识别,并使用Levenshtein距离算法修正语音输入指令误差,解析指令,判断用户意图选择的文本字段,确定文本字段的最终匹配结果;记录用户行为并优化标签排序规则。本发明提高对动态界面和多变信息的适应性,增强系统在实时交互中的效率和准确性,提升用户体验和交互效率。
技术关键词
语音交互方法
文本
语音输入指令
字段
截取屏幕内容
动态
界面交互技术
意图
聚类算法
定义标签
坐标
哈希算法
版图
误差
哈希表