基于多模态大模型的手术视频处理方法及装置

正文

推荐专利

申请号：CN202410894276

申请日期：2024-07-04

公开号：CN119048947A

公开日期：2024-11-29

类型：发明专利

摘要

本发明提供一种基于多模态大模型的手术视频处理方法及装置，其中，上述方法包括：确定手术视频以及与手术视频相关的原始问题；对手术视频进行拆分，得到固定帧数的多个视频段落；通过预训练的视频编码器对多个视频段落中的每个视频段落进行编码处理，得到抽象特征；通过预设的多模态转换器将抽象特征的空间维度转换至与预设的多模态大模型的空间维度一致，得到处理后的抽象特征；基于处理后的抽象特征与文字辅助描述进行交叉嵌入，得到混合抽象特征；将混合抽象特征与原始问题输入至预设的多模态大模型，得到预设的多模态大模型输出的文字回答内容。通过本发明能够增强模型的交互性和灵活性。

技术关键词

视频编码器多模态手术器械标记文字特征非暂态计算机可读存储介质转换器处理器生成文字计算机程序产品编码模块交互性输出模块存储器解码器

系统为您推荐了相关专利信息

医学多模态基座模型的训练方法、系统、设备和存储介质

多模态多任务分支解码器医学

一种PCB布局优化方法、装置、电子设备、存储介质及产品

强化学习模型布局优化方法融合特征状态编码器多模态特征融合

一种基于多模态大语言模型的针道检测方法及装置

大语言模型多模态旋转框图像特征编码指令

多模态大模型的训练方法、图像问答方法与装置

样本多模态图像问答方法标记对象

一种基于多模态图像的无人机检测跟踪方法

检测跟踪方法无人机输出特征多模态红外光

基于多模态大模型的手术视频处理方法及装置

站点导航

APP 下载