摘要
本发明公开了基于多模态大模型的视频画面搜索分屏交互方法及终端,属于智能终端视频交互技术领域,包括当提问搜索功能触发启动控制获取提问搜索指令,并同时控制截取提问搜索功能触发启动时前后预定帧视频画面信息;对提问搜索指令进行识别,识别用户要搜索视频画面信息的意图;通过多模态大模型对截取的预定帧视频画面信息进行元素识别,找出与用户要搜索视频画面信息的意图相匹配的元素;根据找出与用户意图相匹配的元素,以及识别出的用户要搜索视频画面信息的意图,通过多模态大模型,自动搜索出搜索结果;通过预设的分屏交互界面显示。本发明可以实现深度对一段视频画面进行理解和用户进行生成式对话互动交互,为用户的使用提供了方便。
技术关键词
分屏交互方法
多模态
智能终端
元素
指令
视频交互技术
视频播放画面
状态检测模块
搜索意图
图像搜索
意图识别
交互装置
搜索模块
电子设备
语音
匹配模块
云端
系统为您推荐了相关专利信息
三维打印设备
打印平台
故障预测模型
故障检测方法
数据
单幅图像去雾方法
大气散射模型
多头注意力机制
网络
线性变换矩阵
多尺度特征融合网络
柑橘黄龙病
柑橘病害
残差结构
交互注意力
耗材芯片
密钥
通信控制方法
计算机可执行指令
加密