基于图片识别的界面元素查找和定位的方法

首页 AI资讯 AI技术研报 AI监管政策 AI产品测评 AI商业项目 arena全球大模型排行榜 AI产品热榜 AI 源力市场 AI专利库 AI需求对接 AI新闻日报
下载 AITNT APP
🍎 iOS 下载 🤖 Android 下载
正文
推荐专利
基于图片识别的界面元素查找和定位的方法
申请号:CN202510072417
申请日期:2025-01-17
公开号:CN119942553A
公开日期:2025-05-06
类型:发明专利
摘要
本发明提供了一种基于图片识别的界面元素定位的方法。该方法通过现有的自动化用户界面操作技术识别界面元素,并对其进行编号,然后截取包含编号的屏幕图片传递给大语言模型。大语言模型利用其识图能力和自然语言理解能力识别操作目标,并通过UI自动化属性获取操作元素的坐标信息,最后执行相应操作。该方法能够显著提高基于自然语言交互的RPA系统中目标操作元素的识别和定位准确率,降低错误率。
技术关键词
Windows桌面 元素 大语言模型 自然语言 UI自动化技术 鼠标 图片 操作界面 音频播放器 视频播放器 协议 屏幕 识别方法 坐标 错误率 透明度 表单 字体 图标
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号