一种视觉token压缩方法、装置、计算机设备及存储介质

正文

推荐专利

申请号：CN202511061704

申请日期：2025-07-30

公开号：CN121037618A

公开日期：2025-11-28

类型：发明专利

摘要

本申请实施例属于人工智能技术领域，涉及一种视觉token压缩方法、装置、计算机设备及存储介质，该方法包括：接受用户终端发送的携带有原始视频帧的视觉token压缩请求；对原始视频帧进行关键帧筛选操作，得到关键视频帧；将关键视频帧输入至视觉语言模型生成视觉token；根据文本指令对视觉区域的关注度以及视觉区域本身的内容重要性对视觉token进行视觉token筛选操作，得到目标视觉token；向用户终端输出目标视觉token。本申请可用于医疗健康养老等业务系统中进行相关视频处理，本申请可以提高处理效率、准确提取关键信息、增强交互性。

技术关键词

视觉视频帧计算机可读指令信息熵关键帧指标像素语义特征注意力计算机设备子模块压缩装置终端可读存储介质文本人工智能技术医疗健康业务系统

系统为您推荐了相关专利信息

三角形变压器铁芯的自动收料设备及自动收料方法

三角形变压器铁芯收料设备拿取装置自动收料方法折弯机

一种耐振动铝电解电容的成型方法

铝电解电容电解电容器成型方法束腰水冷循环系统

一种从腹腔镜手术图像获取长文本描述的生成与评估方法

视觉特征腹腔镜手术文本腹腔镜图像解码器

一种合成语音生成方法、装置、计算机设备及存储介质

语音生成方法数据标记计算机可读指令文本

一种基于线性插值和比重可调的gamma校准方法、系统及装置

灰阶亮度坐标显示屏输入输出单元

一种视觉token压缩方法、装置、计算机设备及存储介质

站点导航

APP 下载