← 返回作品集
WORK · v0.7 · 持续迭代

video-scribe

AI 长视频笔记工具

把 1 小时长视频变成可检索的结构化笔记。支持 YouTube / B 站 / 本地视频。

"看完一小时视频却记不住重点。"

打开一个 1 小时视频,看完之后想整理成笔记。市面上的工具要么只做转写不做整理,要么 AI 总结一过就丢一半信息。

我的判断:AI 总结的根问题不是不够精炼,是丢信息。

这个判断决定了整个产品的架构。

01

缘起 · "丢信息"是核心问题,"不够精炼"是表面问题

做 AI 产品经理的工作流里,每天要从大量长视频里提取知识——访谈、行业分享、技术拆解。这些视频通常 30 分钟到 2 小时,信息密度高,超过任何一次单轮 LLM 调用能"读懂并精炼"的容量

试过几种方案都没解:

根因是单轮 LLM 调用做"长文本压缩"时,会优先抽取主干信息,丢掉副线和细节。但很多时候副线和细节才是真知识——讲者说"我也踩过这个坑"那一段,比"五大要点"更值得记。

判断:"丢信息"的解法不是更聪明的 prompt,是工程化的多步管线

02

怎么做 · 三步精炼 → 四路径智能分发(v0.3 → v0.7)

v0.3 引入"三步精炼管线",把"压缩长文本"拆成有明确输入输出契约的多个步骤

Step 1 · 题材识别       →   判定内容类型 / 密度 / 视角 / 价值评星
Step 2 · 零遗漏整理     →   清洗原文,按 plan 走口语或书面专用处理,不丢信息
Step 3 · 精炼笔记       →   按视角生成观点 + 方法论 + 行动清单

v0.3 的单一管线在不同长度内容上表现差异巨大——10 分钟视频走三步浪费,2 小时视频走三步装不下。v0.7 升级为四路径智能分发:Step 1 在题材识别时就给出路径建议,分发到 4 条不同流程。

                         Step 1 题材识别
                         (路径判定)
                              │
       ┌──────────────────────┼──────────────────────┐
       ▼                      ▼                      ▼
   极短直通             单批 / 分批            超长流程
   <Step 1>             <Step 1>              <Step 1>
       ↓                    ↓                     ↓
   Step 3 精炼          Step 2 零遗漏          Step 0 全文骨架
                            ↓                     ↓
                       Step 3 精炼            Step 2 分批整理
                                                  ↓
                                            Step 4 批次精炼
                                                  ↓
                                            Step 5 全局精炼

每条路径里,每一步都有明确的输入输出契约,失败可降级——不会因为某一步崩了就整个链路废掉。

多平台支持

v0.5 加入 YouTube + 自动翻译,v0.6 加入本地视频 / 音频导入。目前支持三类输入源

在线视频    YouTube · B 站
本地导入    .mp4 / .mov / .mkv / .mp3 / .wav 等
文本导入    .txt / 字幕文件

输入源不同,但底层都跑同一套"三步精炼 → 四路径分发"。

长文本工程的硬功夫

光有 prompt 体系不够。处理 1 小时+ 视频(万字以上转写稿),还需要:

工程质量

~3000 行 Python
31    个单元测试 · 核心模块 100% 覆盖
Prompt 与调用逻辑模块化分离 (core/prompts.py 独立)
Prompt 测试集(promptfoo 接入)回归基线

技术栈:Python · Whisper · Qwen2.5-72B(SiliconFlow API)· FFmpeg · tkinter

03

★ 关键方法 · 三步精炼 Prompt 体系

长文本不丢信息的工程解法。核心:

这套结构后来扩展为 v0.7 的四路径分发,但底层契约思想不变

方法详情 → /methods/three-step-prompt

04

成果 · 7 次版本,从转写到智能分发

v0.1转写跑通v0.2AI 总结v0.3三步精炼★ 里程碑v0.4长文本分段v0.5YouTube + 翻译v0.6本地导入v0.7四路径分发★ 里程碑
7 个公开版本 · v0.3 切到契约式管线、v0.7 升到智能分发,两个拐点最关键

| 版本 | 关键升级 | 为什么做 | |---|---|---| | v0.1 | GUI + 在线视频下载 + Whisper 转写 | 跑通"URL → 文字"最小可用链路 | | v0.2 | AI 总结 + 日志 + 进度可视化 | 从转写工具升级为笔记工具 | | v0.3 | 三步精炼管线 + 模块化提示词 | 解决单轮 AI 总结信息丢失严重的问题 | | v0.4 | 文本导入 + 长文本分段 + 历史记录 | 超 Token 限制 + 防止重复处理 | | v0.5 | YouTube + 自动翻译 | 打破平台限制,英文内容自动翻译为中文 | | v0.6 | 本地视频 / 音频导入 | 支持离线场景,不依赖在线平台 | | v0.7 | v4 prompt + 四路径智能分发 + 通用视角 + 个人批注 | 解决"单一流程无法适配不同长度和类型内容" |

每个版本都基于真实使用反馈做优先级决策,不是先写完整 RFC 再施工。v0.3 是用了 v0.2 一周后才决定做的——单轮总结的"丢信息"问题,在第一周就暴露出来。

3 类
输入源支持
4 条
智能分发路径
7 个
公开版本
100%
核心模块测试覆盖
05

反思 · 三件事

一、"AI 总结质量差"通常不是 prompt 问题,是工程化问题。

很多人卡在"我的 prompt 不够好",但真正的瓶颈在分段、去重、压缩、降级这些工程层——它们不是写好 prompt 就能解决的。video-scribe 从 v0.3 到 v0.7 的所有升级,其实都不是在改 prompt 本身,而是在改"prompt 怎么被调度、怎么被串联、失败时怎么 fallback"。Prompt engineering 是 90% 工程 + 10% 文字

二、给 Prompt 建测试集,是降低长期迭代成本的杠杆。

99% 的初级 AI PM 候选人说不出"我给 Prompt 建了测试集"。但每次改 prompt 都用人脑回归测试,调几次就开始疑神疑鬼:"是不是上次改的让这个 case 反而变差了?"接入 promptfoo + 准备 13 条真实样本作为基线后,每次 prompt 改动 5 秒看完所有 case 的对比结果。这是把"凭直觉迭代 prompt"换成"有数据反馈地迭代 prompt"。

三、错误降级不是兜底,是设计哲学。

每个 step 都设计了 Plan B:GPU 不可用 → CPU;翻译失败 → 保留原文;Step 3 精炼失败 → 保留 Step 2 的零遗漏整理;超长流程的复盘失败 → 不阻塞最终输出。单点失败导致全链路崩溃是最差的体验——用户花了 10 分钟跑转写,结果因为最后一步报错什么都没拿到。让每一步的产物都是"独立可用"的,是这个工具一直被自己天天用的关键。

§

完整工程实现还有更多细节(v0.7 四路径的判定阈值、超长流程的批次精炼如何避免跨批信息断裂、promptfoo 数据集的构造启发式 …)——这里只摘了三条最有信号的反思。