摘要
本发明提供了一种基于图片识别的界面元素定位的方法。该方法通过现有的自动化用户界面操作技术识别界面元素,并对其进行编号,然后截取包含编号的屏幕图片传递给大语言模型。大语言模型利用其识图能力和自然语言理解能力识别操作目标,并通过UI自动化属性获取操作元素的坐标信息,最后执行相应操作。该方法能够显著提高基于自然语言交互的RPA系统中目标操作元素的识别和定位准确率,降低错误率。
技术关键词
Windows桌面
元素
大语言模型
自然语言
UI自动化技术
鼠标
图片
操作界面
音频播放器
视频播放器
协议
屏幕
识别方法
坐标
错误率
透明度
表单
字体
图标