Skip to content

Latest commit

 

History

History
43 lines (27 loc) · 2.46 KB

File metadata and controls

43 lines (27 loc) · 2.46 KB

Future Work

长期探索性想法,非近期计划。这里的条目甚至不属于"已知、计划修复"级别,仅作为可行性记录。


1. 流式 Pipeline(边下载边处理)

背景:当前 pipeline 各阶段(download → whisper → split → optimize → translate → embed → upload)是严格顺序执行的。对于正在直播的视频,download 会阻塞数小时直到直播结束,后续阶段全部等待。

思路:将 pipeline 改为流式处理——download 产出固定时长窗口(如 30 秒)的音视频片段后,立即交给 whisper 处理,whisper 输出再交给 split/optimize/translate。各阶段可以 pipeline 并行。

可行性

  • 当前 ASR 处理单位约 30 秒,与流式窗口天然匹配
  • 大模型处理按 sentence 数量配置,也可以适配固定窗口
  • 需要处理窗口边界的断句/上下文连续性问题
  • embed(字幕烧录)和 upload 需要等全量完成,或改为分片上传
  • 改动范围大,涉及 pipeline executor、每个 step 的接口设计

现状:尚未调研同类实现。需评估当前框架是否适合扩展为流式处理。


2. 直播流实时翻译

思路:将输入改为直播流(YouTube/B 站直播接口),按固定窗口走完整 pipeline 后输出字幕流,预估端到端延迟约 1 分钟。

现状:尚未调研同类实现。需评估是否有成熟的开源方案可直接集成。优先级低。依赖"流式 Pipeline"能力。


3. 画面文字识别与翻译

思路:对视频画面中超过固定时长(如 3 秒以上)的日语文字进行 OCR 提取,翻译后嵌入(overlay)到画面中。适用于游戏内 UI 文字、聊天弹幕、活动说明等场景。

可行性

  • OCR 部分:有成熟方案(PaddleOCR、EasyOCR、manga-ocr 等),日语识别效果一般可用
  • 文字区域检测:需要检测文字出现的时间范围和位置,避免对每帧做 OCR(采样帧 + 变化检测)
  • 翻译:复用现有 LLM 翻译 pipeline
  • 嵌入:需要在视频对应区域叠加翻译文本,涉及字体、位置、背景半透明等排版问题
  • 技术硬伤:手写体/艺术字 OCR 识别率低;动态文字(滚动/旋转)定位困难;遮挡原文同时放置译文的空间问题

现状:纯想法阶段。OCR + 翻译的基础技术可行,但画面嵌入的工程复杂度高,且可能存在真正的技术限制(特别是艺术字/手写体场景)。