摘要
本公开提供了一种基于屏幕识别的数字人交互控制方法、系统及设备,涉及数据处理技术领域。该方法包括:基于应用系统的信息解析,构建应用系统知识图谱;获取用户输入数据,并基于应用系统知识图谱对用户输入数据进行意图分类;响应于意图分类的结果为系统操作类意图,捕获当前屏幕的界面图像,并对界面图像进行语义分割,生成包含界面组件功能描述与坐标位置的键值字典,基于键值字典构建应用系统功能搜索树;基于应用系统知识图谱以及应用系统功能搜索树,生成从当前页面至目标功能页面的操作指令序列,并根据操作指令序列进行拟人化操作。本公开中的技术方案可以自主理解界面内容并执行拟人化交互操作,具有更高的泛化性和灵活性。
技术关键词
交互控制方法
界面组件
图谱
意图
键值
字典
屏幕
页面
关键词
文本特征向量
数据
多模态
语义
指令
交互控制系统
坐标
图像
序列
依存句法分析