基于图片识别的界面元素查找和定位的方法

正文

推荐专利

基于图片识别的界面元素查找和定位的方法

申请号：CN202510072417

申请日期：2025-01-17

公开号：CN119942553A

公开日期：2025-05-06

类型：发明专利

摘要

本发明提供了一种基于图片识别的界面元素定位的方法。该方法通过现有的自动化用户界面操作技术识别界面元素，并对其进行编号，然后截取包含编号的屏幕图片传递给大语言模型。大语言模型利用其识图能力和自然语言理解能力识别操作目标，并通过UI自动化属性获取操作元素的坐标信息，最后执行相应操作。该方法能够显著提高基于自然语言交互的RPA系统中目标操作元素的识别和定位准确率，降低错误率。

技术关键词

Windows桌面元素大语言模型自然语言 UI自动化技术鼠标图片操作界面音频播放器视频播放器协议屏幕识别方法坐标错误率透明度表单字体图标