一种基于场景感知的智能字幕生成方法和系统

正文

推荐专利

申请号：CN202511366907

申请日期：2025-09-24

公开号：CN120881222A

公开日期：2025-10-31

类型：发明专利

摘要

本发明涉及一种基于场景感知的智能字幕生成方法和系统，通过动态提取视频的实时视觉特征并解析音频流，融合多模态信息建立智能决策模型，以实现字幕的生成与呈现与画面内容和语义上下文的深度协同，依据场景切换、人物动作、关键物体及画面焦点区域的变化，智能决策字幕触发的时机与位置，并采用避让算法确保字幕不会遮挡关键视觉元素，集成语音情感分析，据此动态调整字幕的字体颜色、描边及透明度等视觉特效，从而在准确传达语义信息的基础上，增强情感表现力与视觉舒适度。本发明有效解决了传统字幕生成技术中存在的视听信息割裂、遮挡画面、样式单一及缺乏情感适配等问题，显著提升了用户在各类视频观看场景中的综合体验。

技术关键词

智能字幕生成方法画面场景语音情感分析焦点坐标 HSV颜色直方图语义视觉特征视觉显著性算法物体生成字幕融合多模态信息运动矢量分析梅尔频率倒谱系数透明度 LSTM神经网络智能决策模型

系统为您推荐了相关专利信息

情绪识别方法、装置、设备、介质及产品

待测对象面部特征情绪识别方法情绪特征识别置信度

一种基于人工智能的建筑方案生成系统及方法

图片建筑分词生成系统输入端

用于视觉场景理解的三维特征优化方法、装置和电子设备

特征优化方法场景交叉注意力机制图像预训练网络

一种基于融合空间特征的多通道语音增强方法

多通道频谱特征语音比率短时傅里叶变换

一种眼睑运动功能障碍患者辅助诊断数据报告的生成方法

运动功能障碍患者生成方法运动能力分析数据周期

一种基于场景感知的智能字幕生成方法和系统

站点导航

APP 下载