一种视觉token压缩方法、装置、计算机设备及存储介质

AITNT
正文
推荐专利
一种视觉token压缩方法、装置、计算机设备及存储介质
申请号:CN202511061704
申请日期:2025-07-30
公开号:CN121037618A
公开日期:2025-11-28
类型:发明专利
摘要
本申请实施例属于人工智能技术领域,涉及一种视觉token压缩方法、装置、计算机设备及存储介质,该方法包括:接受用户终端发送的携带有原始视频帧的视觉token压缩请求;对原始视频帧进行关键帧筛选操作,得到关键视频帧;将关键视频帧输入至视觉语言模型生成视觉token;根据文本指令对视觉区域的关注度以及视觉区域本身的内容重要性对视觉token进行视觉token筛选操作,得到目标视觉token;向用户终端输出目标视觉token。本申请可用于医疗健康养老等业务系统中进行相关视频处理,本申请可以提高处理效率、准确提取关键信息、增强交互性。
技术关键词
视觉 视频帧 计算机可读指令 信息熵 关键帧 指标 像素 语义特征 注意力 计算机设备 子模块 压缩装置 终端 可读存储介质 文本 人工智能技术 医疗健康 业务系统
系统为您推荐了相关专利信息
1
三角形变压器铁芯的自动收料设备及自动收料方法
三角形变压器铁芯 收料设备 拿取装置 自动收料方法 折弯机
2
一种耐振动铝电解电容的成型方法
铝电解电容 电解电容器 成型方法 束腰 水冷循环系统
3
一种从腹腔镜手术图像获取长文本描述的生成与评估方法
视觉特征 腹腔镜手术 文本 腹腔镜图像 解码器
4
一种合成语音生成方法、装置、计算机设备及存储介质
语音生成方法 数据 标记 计算机可读指令 文本
5
一种基于线性插值和比重可调的gamma校准方法、系统及装置
灰阶 亮度 坐标 显示屏 输入输出单元
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号