摘要
本公开提供了一种基于大模型的视频交互方法、装置、电子设备、存储介质及计算机程序产品,涉及人工智能技术领域,具体涉及大模型、自然语言理解、视频理解等技术领域,可应用于视频通话、共享屏幕场景下。具体实现方案为:在与大模型的视频交互过程中,确定出视频交互过程中的视频画面关联的空间指向性动作所针对的目标对象;根据空间指向性动作关联的输入信息,确定针对于目标对象的数据处理指令;采用大模型,根据数据处理指令对目标对象进行数据处理,得到数据处理结果。本公开允许用户以空间指向性动作和信息输入,例如“指”和“说”,相结合的直观方式表达意图,降低了人机交互过程中的沟通成本,提高了人机交互过程中用户意图的理解效率和处理准确度。
技术关键词
数据处理指令
文本
视频交互方法
画面
语义
视频交互装置
对象识别
计算机程序产品
自然语言理解
时序
数据处理单元
人工智能技术
轨迹
电子设备
处理器通信
系统为您推荐了相关专利信息
检索业务
图像生成模型
图像生成方法
图像库
数据
功率控制方法
图像场景识别
时间域
除雪机
功率值
高频干扰
风险评估模型
样本
图像分割网络
分类方法