一种基于场景感知的智能字幕生成方法和系统

AITNT
正文
推荐专利
一种基于场景感知的智能字幕生成方法和系统
申请号:CN202511366907
申请日期:2025-09-24
公开号:CN120881222A
公开日期:2025-10-31
类型:发明专利
摘要
本发明涉及一种基于场景感知的智能字幕生成方法和系统,通过动态提取视频的实时视觉特征并解析音频流,融合多模态信息建立智能决策模型,以实现字幕的生成与呈现与画面内容和语义上下文的深度协同,依据场景切换、人物动作、关键物体及画面焦点区域的变化,智能决策字幕触发的时机与位置,并采用避让算法确保字幕不会遮挡关键视觉元素,集成语音情感分析,据此动态调整字幕的字体颜色、描边及透明度等视觉特效,从而在准确传达语义信息的基础上,增强情感表现力与视觉舒适度。本发明有效解决了传统字幕生成技术中存在的视听信息割裂、遮挡画面、样式单一及缺乏情感适配等问题,显著提升了用户在各类视频观看场景中的综合体验。
技术关键词
智能字幕 生成方法 画面 场景 语音情感分析 焦点 坐标 HSV颜色直方图 语义 视觉特征 视觉显著性算法 物体 生成字幕 融合多模态信息 运动矢量分析 梅尔频率倒谱系数 透明度 LSTM神经网络 智能决策模型
系统为您推荐了相关专利信息
1
情绪识别方法、装置、设备、介质及产品
待测对象 面部特征 情绪识别方法 情绪特征 识别置信度
2
一种基于人工智能的建筑方案生成系统及方法
图片 建筑 分词 生成系统 输入端
3
用于视觉场景理解的三维特征优化方法、装置和电子设备
特征优化方法 场景 交叉注意力机制 图像 预训练网络
4
一种基于融合空间特征的多通道语音增强方法
多通道 频谱特征 语音 比率 短时傅里叶变换
5
一种眼睑运动功能障碍患者辅助诊断数据报告的生成方法
运动功能障碍患者 生成方法 运动能力分析 数据 周期
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号