基于大模型的视频交互方法、装置及产品

正文

推荐专利

基于大模型的视频交互方法、装置及产品

申请号：CN202511038178

申请日期：2025-07-25

公开号：CN120897083A

公开日期：2025-11-04

类型：发明专利

摘要

本公开提供了一种基于大模型的视频交互方法、装置、电子设备、存储介质及计算机程序产品，涉及人工智能技术领域，具体涉及大模型、自然语言理解、视频理解等技术领域，可应用于视频通话、共享屏幕场景下。具体实现方案为：在与大模型的视频交互过程中，确定出视频交互过程中的视频画面关联的空间指向性动作所针对的目标对象；根据空间指向性动作关联的输入信息，确定针对于目标对象的数据处理指令；采用大模型，根据数据处理指令对目标对象进行数据处理，得到数据处理结果。本公开允许用户以空间指向性动作和信息输入，例如“指”和“说”，相结合的直观方式表达意图，降低了人机交互过程中的沟通成本，提高了人机交互过程中用户意图的理解效率和处理准确度。

技术关键词

数据处理指令文本视频交互方法画面语义视频交互装置对象识别计算机程序产品自然语言理解时序数据处理单元人工智能技术轨迹电子设备处理器通信

系统为您推荐了相关专利信息

一种图像生成方法、装置、存储介质以及电子设备

检索业务图像生成模型图像生成方法图像库数据

一种基于集成学习的文本分类方法

文本分类方法分类器数据神经网络结构词典

一种基于人工智能的涡喷除雪机的功率控制方法

功率控制方法图像场景识别时间域除雪机功率值

基于交叉注意分层融合的潜在扩散虚拟试穿研究方法

人体文本编码器图像编码器服装自然语言

基于机器视觉的智能制造缺陷自动检测与分类方法

高频干扰风险评估模型样本图像分割网络分类方法

基于大模型的视频交互方法、装置及产品

站点导航

APP 下载