WORK · v0.7 · 持续迭代

video-scribe

AI 长视频笔记工具

把 1 小时长视频变成可检索的结构化笔记。支持 YouTube / B 站 / 本地视频。

"看完一小时视频却记不住重点。"

打开一个 1 小时视频，看完之后想整理成笔记。市面上的工具要么只做转写不做整理，要么 AI 总结一过就丢一半信息。

我的判断：AI 总结的根问题不是不够精炼，是丢信息。

这个判断决定了整个产品的架构。

缘起 · "丢信息"是核心问题，"不够精炼"是表面问题

做 AI 产品经理的工作流里，每天要从大量长视频里提取知识——访谈、行业分享、技术拆解。这些视频通常 30 分钟到 2 小时，信息密度高，超过任何一次单轮 LLM 调用能"读懂并精炼"的容量。

试过几种方案都没解：

只做转写：得到一堆原始文字，没结构、没观点提取，等于把"做笔记"这件事推回给我
单轮 AI 总结：1 小时内容压成 500 字，核心信息丢失严重——尤其是讲者的真实判断、对比、反例这些"非主流但高信号"的内容
直接喂超长提示词：经常超 token 限制，或者模型只看开头结尾

根因是单轮 LLM 调用做"长文本压缩"时，会优先抽取主干信息，丢掉副线和细节。但很多时候副线和细节才是真知识——讲者说"我也踩过这个坑"那一段，比"五大要点"更值得记。

判断："丢信息"的解法不是更聪明的 prompt，是工程化的多步管线。

怎么做 · 三步精炼 → 四路径智能分发（v0.3 → v0.7）

v0.3 引入"三步精炼管线"，把"压缩长文本"拆成有明确输入输出契约的多个步骤：

Step 1 · 题材识别       →   判定内容类型 / 密度 / 视角 / 价值评星
Step 2 · 零遗漏整理     →   清洗原文，按 plan 走口语或书面专用处理，不丢信息
Step 3 · 精炼笔记       →   按视角生成观点 + 方法论 + 行动清单

v0.3 的单一管线在不同长度内容上表现差异巨大——10 分钟视频走三步浪费，2 小时视频走三步装不下。v0.7 升级为四路径智能分发：Step 1 在题材识别时就给出路径建议，分发到 4 条不同流程。

                         Step 1 题材识别
                         （路径判定）
                              │
       ┌──────────────────────┼──────────────────────┐
       ▼                      ▼                      ▼
   极短直通             单批 / 分批            超长流程
   <Step 1>             <Step 1>              <Step 1>
       ↓                    ↓                     ↓
   Step 3 精炼          Step 2 零遗漏          Step 0 全文骨架
                            ↓                     ↓
                       Step 3 精炼            Step 2 分批整理
                                                  ↓
                                            Step 4 批次精炼
                                                  ↓
                                            Step 5 全局精炼

每条路径里，每一步都有明确的输入输出契约，失败可降级——不会因为某一步崩了就整个链路废掉。

多平台支持

v0.5 加入 YouTube + 自动翻译，v0.6 加入本地视频 / 音频导入。目前支持三类输入源：

在线视频    YouTube · B 站
本地导入    .mp4 / .mov / .mkv / .mp3 / .wav 等
文本导入    .txt / 字幕文件

输入源不同，但底层都跑同一套"三步精炼 → 四路径分发"。

长文本工程的硬功夫

光有 prompt 体系不够。处理 1 小时+ 视频（万字以上转写稿），还需要：

按句子边界智能分段（3000 字 / 段，100 字重叠），不在句子中间切
段间去重避免上下文跨段重复
段内压缩 30-40% 后再做全局精炼，让最后一步装得下整篇骨架
错误降级策略：GPU → CPU 降级 / 翻译失败保留原文 / Step 3 失败保留 Step 2

工程质量

~3000 行 Python
31    个单元测试 · 核心模块 100% 覆盖
Prompt 与调用逻辑模块化分离 (core/prompts.py 独立)
Prompt 测试集（promptfoo 接入）回归基线

技术栈：Python · Whisper · Qwen2.5-72B（SiliconFlow API）· FFmpeg · tkinter

★ 关键方法 · 三步精炼 Prompt 体系

长文本不丢信息的工程解法。核心：

把"长文本压缩"拆成多个有明确输入输出契约的步骤，每步只解一类问题
Step 1（题材识别）→ Step 2（零遗漏整理）→ Step 2.5（压缩摘要）→ Step 3（精炼笔记）
每步可独立测试、独立迭代、独立降级——单点失败不导致全链路崩溃

这套结构后来扩展为 v0.7 的四路径分发，但底层契约思想不变。

方法详情 → /methods/three-step-prompt

成果 · 7 次版本，从转写到智能分发

7 个公开版本 · v0.3 切到契约式管线、v0.7 升到智能分发，两个拐点最关键

| 版本 | 关键升级 | 为什么做 | |---|---|---| | v0.1 | GUI + 在线视频下载 + Whisper 转写 | 跑通"URL → 文字"最小可用链路 | | v0.2 | AI 总结 + 日志 + 进度可视化 | 从转写工具升级为笔记工具 | | v0.3 | 三步精炼管线 + 模块化提示词 | 解决单轮 AI 总结信息丢失严重的问题 | | v0.4 | 文本导入 + 长文本分段 + 历史记录 | 超 Token 限制 + 防止重复处理 | | v0.5 | YouTube + 自动翻译 | 打破平台限制，英文内容自动翻译为中文 | | v0.6 | 本地视频 / 音频导入 | 支持离线场景，不依赖在线平台 | | v0.7 | v4 prompt + 四路径智能分发 + 通用视角 + 个人批注 | 解决"单一流程无法适配不同长度和类型内容" |

每个版本都基于真实使用反馈做优先级决策，不是先写完整 RFC 再施工。v0.3 是用了 v0.2 一周后才决定做的——单轮总结的"丢信息"问题，在第一周就暴露出来。

3 类

输入源支持

4 条

智能分发路径

7 个

公开版本

100%

核心模块测试覆盖

反思 · 三件事

一、"AI 总结质量差"通常不是 prompt 问题，是工程化问题。

很多人卡在"我的 prompt 不够好"，但真正的瓶颈在分段、去重、压缩、降级这些工程层——它们不是写好 prompt 就能解决的。video-scribe 从 v0.3 到 v0.7 的所有升级，其实都不是在改 prompt 本身，而是在改"prompt 怎么被调度、怎么被串联、失败时怎么 fallback"。Prompt engineering 是 90% 工程 + 10% 文字。

二、给 Prompt 建测试集，是降低长期迭代成本的杠杆。

99% 的初级 AI PM 候选人说不出"我给 Prompt 建了测试集"。但每次改 prompt 都用人脑回归测试，调几次就开始疑神疑鬼："是不是上次改的让这个 case 反而变差了？"接入 promptfoo + 准备 13 条真实样本作为基线后，每次 prompt 改动 5 秒看完所有 case 的对比结果。这是把"凭直觉迭代 prompt"换成"有数据反馈地迭代 prompt"。

三、错误降级不是兜底，是设计哲学。

每个 step 都设计了 Plan B：GPU 不可用 → CPU；翻译失败 → 保留原文；Step 3 精炼失败 → 保留 Step 2 的零遗漏整理；超长流程的复盘失败 → 不阻塞最终输出。单点失败导致全链路崩溃是最差的体验——用户花了 10 分钟跑转写，结果因为最后一步报错什么都没拿到。让每一步的产物都是"独立可用"的，是这个工具一直被自己天天用的关键。

完整工程实现还有更多细节（v0.7 四路径的判定阈值、超长流程的批次精炼如何避免跨批信息断裂、promptfoo 数据集的构造启发式 …）——这里只摘了三条最有信号的反思。

← 上一篇

PHTI

新媒体 AI 自动化