摘要
本公开提供了一种基于大模型的视频交互方法、装置、电子设备和介质,涉及人工智能技术领域,尤其涉及大模型、自然语言处理和图像处理技术领域。实现方案为:在基于大模型的视频交互过程中,获取输入的交互输入数据和目标文件,其中,交互输入数据包括语音数据、图像数据和视频数据中的任一项;通过大模型处理交互输入数据和目标文件,以确定交互输出数据;以及输出交互输出数据。
技术关键词
视频交互方法
数据
视频交互装置
解码视频帧
意图
关键帧
电子设备
网络
图像处理技术
人工智能技术
语音
兴趣
计算机程序产品
对象
处理器通信
自然语言
系统为您推荐了相关专利信息
神经网络模型
语音检测方法
模型融合方法
参数
多任务
语音识别模型
活动语音检测方法
声学特征
序列
长短期记忆网络
多源异构数据
文本生成方法
解析工具
填充工具
数据处理工具
汽车显示终端
认证方法
生物特征信息
令牌
汉明距离
识别图像信息
多尺度卷积核
行道树
病虫害
训练检测模型