摘要
本申请实施例属于人工智能技术领域,涉及一种视觉token压缩方法、装置、计算机设备及存储介质,该方法包括:接受用户终端发送的携带有原始视频帧的视觉token压缩请求;对原始视频帧进行关键帧筛选操作,得到关键视频帧;将关键视频帧输入至视觉语言模型生成视觉token;根据文本指令对视觉区域的关注度以及视觉区域本身的内容重要性对视觉token进行视觉token筛选操作,得到目标视觉token;向用户终端输出目标视觉token。本申请可用于医疗健康养老等业务系统中进行相关视频处理,本申请可以提高处理效率、准确提取关键信息、增强交互性。
技术关键词
视觉
视频帧
计算机可读指令
信息熵
关键帧
指标
像素
语义特征
注意力
计算机设备
子模块
压缩装置
终端
可读存储介质
文本
人工智能技术
医疗健康
业务系统
系统为您推荐了相关专利信息
三角形变压器铁芯
收料设备
拿取装置
自动收料方法
折弯机
铝电解电容
电解电容器
成型方法
束腰
水冷循环系统