基于多模态大模型的手术视频处理方法及装置

AITNT
正文
推荐专利
基于多模态大模型的手术视频处理方法及装置
申请号:CN202410894276
申请日期:2024-07-04
公开号:CN119048947A
公开日期:2024-11-29
类型:发明专利
摘要
本发明提供一种基于多模态大模型的手术视频处理方法及装置,其中,上述方法包括:确定手术视频以及与手术视频相关的原始问题;对手术视频进行拆分,得到固定帧数的多个视频段落;通过预训练的视频编码器对多个视频段落中的每个视频段落进行编码处理,得到抽象特征;通过预设的多模态转换器将抽象特征的空间维度转换至与预设的多模态大模型的空间维度一致,得到处理后的抽象特征;基于处理后的抽象特征与文字辅助描述进行交叉嵌入,得到混合抽象特征;将混合抽象特征与原始问题输入至预设的多模态大模型,得到预设的多模态大模型输出的文字回答内容。通过本发明能够增强模型的交互性和灵活性。
技术关键词
视频编码器 多模态 手术器械标记 文字特征 非暂态计算机可读存储介质 转换器 处理器 生成文字 计算机程序产品 编码模块 交互性 输出模块 存储器 解码器
系统为您推荐了相关专利信息
1
医学多模态基座模型的训练方法、系统、设备和存储介质
多模态 多任务 分支 解码器 医学
2
一种PCB布局优化方法、装置、电子设备、存储介质及产品
强化学习模型 布局优化方法 融合特征 状态编码器 多模态特征融合
3
一种基于多模态大语言模型的针道检测方法及装置
大语言模型 多模态 旋转框 图像特征编码 指令
4
多模态大模型的训练方法、图像问答方法与装置
样本 多模态 图像问答方法 标记 对象
5
一种基于多模态图像的无人机检测跟踪方法
检测跟踪方法 无人机 输出特征 多模态 红外光
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号