基于多模态大模型的视频画面搜索分屏交互方法及终端

正文

推荐专利

申请号：CN202510793868

申请日期：2025-06-13

公开号：CN120744174A

公开日期：2025-10-03

类型：发明专利

摘要

本发明公开了基于多模态大模型的视频画面搜索分屏交互方法及终端，属于智能终端视频交互技术领域，包括当提问搜索功能触发启动控制获取提问搜索指令，并同时控制截取提问搜索功能触发启动时前后预定帧视频画面信息；对提问搜索指令进行识别，识别用户要搜索视频画面信息的意图；通过多模态大模型对截取的预定帧视频画面信息进行元素识别，找出与用户要搜索视频画面信息的意图相匹配的元素；根据找出与用户意图相匹配的元素，以及识别出的用户要搜索视频画面信息的意图，通过多模态大模型，自动搜索出搜索结果；通过预设的分屏交互界面显示。本发明可以实现深度对一段视频画面进行理解和用户进行生成式对话互动交互，为用户的使用提供了方便。

技术关键词

分屏交互方法多模态智能终端元素指令视频交互技术视频播放画面状态检测模块搜索意图图像搜索意图识别交互装置搜索模块电子设备语音匹配模块云端

系统为您推荐了相关专利信息

一种三维打印设备的故障检测方法、装置及设备

三维打印设备打印平台故障预测模型故障检测方法数据

一种单幅图像去雾方法及装置

单幅图像去雾方法大气散射模型多头注意力机制网络线性变换矩阵

基于注意力机制的轻量级多尺度特征融合网络的柑橘病害识别方法及设备

多尺度特征融合网络柑橘黄龙病柑橘病害残差结构交互注意力

图像形成设备的通信控制方法、装置、控制器和耗材芯片

耗材芯片密钥通信控制方法计算机可执行指令加密

一种带电作业机器人末端工具锁紧判断方法

带电作业机器人线缆判断方法直线偏差

基于多模态大模型的视频画面搜索分屏交互方法及终端

站点导航

APP 下载