一种基于OCR与动态蒙版标注的多文本字段语音交互方法

AITNT
正文
推荐专利
一种基于OCR与动态蒙版标注的多文本字段语音交互方法
申请号:CN202510636073
申请日期:2025-05-16
公开号:CN120561268A
公开日期:2025-08-29
类型:发明专利
摘要
本发明公开了一种基于OCR与动态蒙版标注的多文本字段语音交互方法,涉及智能界面交互技术领域,包括实时截取屏幕内容进行OCR识别,得到OCR识别结果;对OCR识别结果进行去重和聚类,生成文本字段组;创建透明蒙版图层覆盖当前应用界面,依次对文本字段组分配数字标签并根据标签排序规则进行排序;对用户的语音输入指令进行识别,并使用Levenshtein距离算法修正语音输入指令误差,解析指令,判断用户意图选择的文本字段,确定文本字段的最终匹配结果;记录用户行为并优化标签排序规则。本发明提高对动态界面和多变信息的适应性,增强系统在实时交互中的效率和准确性,提升用户体验和交互效率。
技术关键词
语音交互方法 文本 语音输入指令 字段 截取屏幕内容 动态 界面交互技术 意图 聚类算法 定义标签 坐标 哈希算法 版图 误差 哈希表
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号