video-scribe
AI 长视频笔记工具
把 1 小时长视频变成可检索的结构化笔记。支持 YouTube / B 站 / 本地视频。
"看完一小时视频却记不住重点。"
打开一个 1 小时视频,看完之后想整理成笔记。市面上的工具要么只做转写不做整理,要么 AI 总结一过就丢一半信息。
我的判断:AI 总结的根问题不是不够精炼,是丢信息。
这个判断决定了整个产品的架构。
缘起 · "丢信息"是核心问题,"不够精炼"是表面问题
做 AI 产品经理的工作流里,每天要从大量长视频里提取知识——访谈、行业分享、技术拆解。这些视频通常 30 分钟到 2 小时,信息密度高,超过任何一次单轮 LLM 调用能"读懂并精炼"的容量。
试过几种方案都没解:
- 只做转写:得到一堆原始文字,没结构、没观点提取,等于把"做笔记"这件事推回给我
- 单轮 AI 总结:1 小时内容压成 500 字,核心信息丢失严重——尤其是讲者的真实判断、对比、反例这些"非主流但高信号"的内容
- 直接喂超长提示词:经常超 token 限制,或者模型只看开头结尾
根因是单轮 LLM 调用做"长文本压缩"时,会优先抽取主干信息,丢掉副线和细节。但很多时候副线和细节才是真知识——讲者说"我也踩过这个坑"那一段,比"五大要点"更值得记。
判断:"丢信息"的解法不是更聪明的 prompt,是工程化的多步管线。
怎么做 · 三步精炼 → 四路径智能分发(v0.3 → v0.7)
v0.3 引入"三步精炼管线",把"压缩长文本"拆成有明确输入输出契约的多个步骤:
Step 1 · 题材识别 → 判定内容类型 / 密度 / 视角 / 价值评星
Step 2 · 零遗漏整理 → 清洗原文,按 plan 走口语或书面专用处理,不丢信息
Step 3 · 精炼笔记 → 按视角生成观点 + 方法论 + 行动清单
v0.3 的单一管线在不同长度内容上表现差异巨大——10 分钟视频走三步浪费,2 小时视频走三步装不下。v0.7 升级为四路径智能分发:Step 1 在题材识别时就给出路径建议,分发到 4 条不同流程。
Step 1 题材识别
(路径判定)
│
┌──────────────────────┼──────────────────────┐
▼ ▼ ▼
极短直通 单批 / 分批 超长流程
<Step 1> <Step 1> <Step 1>
↓ ↓ ↓
Step 3 精炼 Step 2 零遗漏 Step 0 全文骨架
↓ ↓
Step 3 精炼 Step 2 分批整理
↓
Step 4 批次精炼
↓
Step 5 全局精炼
每条路径里,每一步都有明确的输入输出契约,失败可降级——不会因为某一步崩了就整个链路废掉。
多平台支持
v0.5 加入 YouTube + 自动翻译,v0.6 加入本地视频 / 音频导入。目前支持三类输入源:
在线视频 YouTube · B 站
本地导入 .mp4 / .mov / .mkv / .mp3 / .wav 等
文本导入 .txt / 字幕文件
输入源不同,但底层都跑同一套"三步精炼 → 四路径分发"。
长文本工程的硬功夫
光有 prompt 体系不够。处理 1 小时+ 视频(万字以上转写稿),还需要:
- 按句子边界智能分段(3000 字 / 段,100 字重叠),不在句子中间切
- 段间去重避免上下文跨段重复
- 段内压缩 30-40% 后再做全局精炼,让最后一步装得下整篇骨架
- 错误降级策略:GPU → CPU 降级 / 翻译失败保留原文 / Step 3 失败保留 Step 2
工程质量
~3000 行 Python
31 个单元测试 · 核心模块 100% 覆盖
Prompt 与调用逻辑模块化分离 (core/prompts.py 独立)
Prompt 测试集(promptfoo 接入)回归基线
技术栈:Python · Whisper · Qwen2.5-72B(SiliconFlow API)· FFmpeg · tkinter
★ 关键方法 · 三步精炼 Prompt 体系
长文本不丢信息的工程解法。核心:
- 把"长文本压缩"拆成多个有明确输入输出契约的步骤,每步只解一类问题
- Step 1(题材识别)→ Step 2(零遗漏整理)→ Step 2.5(压缩摘要)→ Step 3(精炼笔记)
- 每步可独立测试、独立迭代、独立降级——单点失败不导致全链路崩溃
这套结构后来扩展为 v0.7 的四路径分发,但底层契约思想不变。
方法详情 → /methods/three-step-prompt
成果 · 7 次版本,从转写到智能分发
| 版本 | 关键升级 | 为什么做 | |---|---|---| | v0.1 | GUI + 在线视频下载 + Whisper 转写 | 跑通"URL → 文字"最小可用链路 | | v0.2 | AI 总结 + 日志 + 进度可视化 | 从转写工具升级为笔记工具 | | v0.3 | 三步精炼管线 + 模块化提示词 | 解决单轮 AI 总结信息丢失严重的问题 | | v0.4 | 文本导入 + 长文本分段 + 历史记录 | 超 Token 限制 + 防止重复处理 | | v0.5 | YouTube + 自动翻译 | 打破平台限制,英文内容自动翻译为中文 | | v0.6 | 本地视频 / 音频导入 | 支持离线场景,不依赖在线平台 | | v0.7 | v4 prompt + 四路径智能分发 + 通用视角 + 个人批注 | 解决"单一流程无法适配不同长度和类型内容" |
每个版本都基于真实使用反馈做优先级决策,不是先写完整 RFC 再施工。v0.3 是用了 v0.2 一周后才决定做的——单轮总结的"丢信息"问题,在第一周就暴露出来。
反思 · 三件事
一、"AI 总结质量差"通常不是 prompt 问题,是工程化问题。
很多人卡在"我的 prompt 不够好",但真正的瓶颈在分段、去重、压缩、降级这些工程层——它们不是写好 prompt 就能解决的。video-scribe 从 v0.3 到 v0.7 的所有升级,其实都不是在改 prompt 本身,而是在改"prompt 怎么被调度、怎么被串联、失败时怎么 fallback"。Prompt engineering 是 90% 工程 + 10% 文字。
二、给 Prompt 建测试集,是降低长期迭代成本的杠杆。
99% 的初级 AI PM 候选人说不出"我给 Prompt 建了测试集"。但每次改 prompt 都用人脑回归测试,调几次就开始疑神疑鬼:"是不是上次改的让这个 case 反而变差了?"接入 promptfoo + 准备 13 条真实样本作为基线后,每次 prompt 改动 5 秒看完所有 case 的对比结果。这是把"凭直觉迭代 prompt"换成"有数据反馈地迭代 prompt"。
三、错误降级不是兜底,是设计哲学。
每个 step 都设计了 Plan B:GPU 不可用 → CPU;翻译失败 → 保留原文;Step 3 精炼失败 → 保留 Step 2 的零遗漏整理;超长流程的复盘失败 → 不阻塞最终输出。单点失败导致全链路崩溃是最差的体验——用户花了 10 分钟跑转写,结果因为最后一步报错什么都没拿到。让每一步的产物都是"独立可用"的,是这个工具一直被自己天天用的关键。
完整工程实现还有更多细节(v0.7 四路径的判定阈值、超长流程的批次精炼如何避免跨批信息断裂、promptfoo 数据集的构造启发式 …)——这里只摘了三条最有信号的反思。