通过字幕总结YouTube视频内容

6
9
2026

通过字幕总结YouTube视频内容

本文来自依云's Blog，转载请注明。

现在YouTube首页的视频推荐越来越差了，好多标题党、clickbait，故意把讨论的主题藏起来。经常我点进去看了好久，才发现原来并没有讨论什么我之前不知道信息，又或者讨论的话题我完全不感兴趣。再不就是把我想知道的信息藏到不知道哪个片段里。虽然我有GlobalSpeed扩展可以依内容信息密度来方便地调整播放速度，但是调太快（超过2x）就听不清啦。总之是好多视频点开看之前十分吸引人，但看完或者看一半时就想骂人、点踩退出，十分浪费时间。

正好最近在尝试Gemini API，于是灵光一现，写了个脚本，使用yt-dlp下载视频字幕，然后调用Gemini API来总结内容。

#!/usr/bin/python3

import sys
import json
import subprocess
import tempfile
from pathlib import Path

import httpx

GEMINI_KEY = 'YOUR GEMINI KEY HERE'
URL = 'https://generativelanguage.googleapis.com/v1beta/models/gemini-3.1-flash-lite:streamGenerateContent?alt=sse'
PROMPT = '根据以下字幕文本总结视频内容。总结结果中请不要包含任何赞助商推广信息。'

def main(url, sublang):
  with tempfile.TemporaryDirectory() as d:
    subprocess.run([
      'yt-dlp', '--sub-langs', sublang, '--write-subs', '--write-auto-subs', '--skip-download',
      url,
    ],
      cwd=d,
      check=True,
    )

    p = Path(d)
    try:
      file = tuple(p.iterdir())[0]
    except IndexError:
      sys.exit('No subtitles.')

    for _ in range(2):
      try:
        do_request(file)
        break
      except httpx.ReadError as e:
        print(e, file=sys.stderr)

def do_request(filepath):
  client = httpx.Client(http2=True)
  filename = filepath.name
  with filepath.open() as f:
    subtitles = f.read()

  parts = [{
    'text': PROMPT,
  }, {
    'text': f'文件名：{filename}\n文件内容：\n{subtitles}',
  }]

  j = {
    'contents': [{
      'parts': parts
    }],
  }
  with client.stream(
    'POST', URL,
    headers = {
      "X-goog-api-key": GEMINI_KEY,
      "Content-Type": "application/json",
    },
    json=j, timeout=120,
  ) as r:
    for line in r.iter_lines():
      if not line.startswith('data: '):
        continue

      line = line.removeprefix('data: ')

      data = json.loads(line)
      for a in data['candidates']:
        for b in a['content']['parts']:
          text = b['text']
          if not text:
            break
          print(text, end='', flush=True)

  print()

if __name__ == '__main__':
  import argparse

  parser = argparse.ArgumentParser()
  parser.add_argument('URL',
                      help='YouTube URL')
  parser.add_argument('--lang', default='en',
                      help='choose subtitles language')
  args = parser.parse_args()

  main(args.URL, args.lang)

脚本依赖Python和httpx库。当然鉴于httpx已经不再更新，你换成httpx2应该也能用。Gemini Key可以去这里生成，然后填到脚本开头。我使用的是gemini-3.1-flash-lite这个模型，因为免费版本中，它的每日请求数配额比较充足。

当然啦，视频要有CC字幕这个脚本才能用，否则会报错。默认使用英文字幕，包含自动生成的版本。如果是中文视频，可以使用--lang zh.*参数指定用中文字幕。

2026年07月01日更新：脚本后续有些改进，包括支持传递yt-dlp参数、支持使用参数指定模型、支持本地模型、支持后续对话等。脚本放GitHub上了：yt-summarize。

Category: 网络 | Tags: python google YouTube LLM | Read Count: 3795

[回复]

Jintao Zhang 说:
Jun 15, 2026 09:37:36 PM

如果有在使用 Gemini 的话，我现在都是直接把 youtube 视频丢给 Gemini app，或者 Gemini 浏览器的侧边栏/桌面快捷方式啥的，它的工作逻辑也差不多是那样，还省去了自己跑脚本啥的时间，我觉得还蛮方便的，你也可以试试看

[回复]

依云说:
Jun 16, 2026 10:26:04 AM

开网页感觉更重，还要自己每次都准备提示词呀。另外这个脚本给B站用也是可以的。

[回复]

依云说:
Jun 16, 2026 10:48:12 AM

不过我试了一下，没有字幕的视频网页版也能总结内容，这个挺不错的。要是网页能轻量些就好了。

[回复]

依云说:
Jun 16, 2026 06:06:51 PM

这样用好污染对话历史啊……

[回复]

石樱灯笼说:
Jun 17, 2026 10:48:59 AM

油土鳖我感觉推荐视频还行，虽然前几年几次大更新后，断崖式的质量变差，开始推付费推广和已经看过的视频，好在付费推广可以直接用ublock干掉。
当然也有可能是我只看特定的订阅和特定的关键词，跟标题党和clickbait不太能沾边。看内容只看几个专业性比较强的，只要发现是那种一知半解抄袭别人稿件然后口嗨的，立刻拉黑，油土鳖上的工厂号还是比较少的，不像B站一样基本上首页全是工厂号。唯一一次遇到的就是一个停不下来的钓鱼直播，在那放valve的历史采访视频，然后公屏不停刷钓鱼链接，举报都不好使，我觉得这种玩意用AI根本处理不了。

那种“点开看之前十分吸引人，或者前1分钟吸引人”的我倒觉得国内视频网站更多，短视频网站更是铺天盖地。就是不知道Gemini的总结效果怎样，我试过把文本导入到国产AI里做总结，基本上驴唇不对马嘴。

[回复]

依云说:
Jun 18, 2026 05:56:52 AM

我比较少看B站，别的国内视频站就更不看了。短视频我不看的（时间太短根本讲不清楚一个话题的，感觉完全是在浪费时间），YouTube的我全部屏蔽掉了。

[回复]

rxliuli 说:
Jun 30, 2026 02:02:07 PM

只是好奇，为什么不使用现有的 youtube 总结扩展程序，不过 uoutube 扩展程序确实风险比较大，毕竟能访问 google 账户

[回复]

依云说:
Jul 01, 2026 07:34:38 AM

因为它们不能在终端用啊。不把网址直接发给Gemini也有同样的原因：我要减少交互次数，不要一直盯着软件干活。

在终端里运行的时候，我就可以看到不确定是否感兴趣的视频，把链接丢过去，然后继续浏览。依此重复。过一会儿再去终端里一个个看结果。

[回复]

依云说:
Jul 01, 2026 07:38:20 AM

另外我看了一眼这类扩展，有挺多，筛选也是成本。有些依赖它自己的服务，会有额外的隐私风险。

反正这脚本写起来又不费事，而且部分功能其实我也其它脚本里也能复用。

[回复]

石樱灯笼说:
Jul 02, 2026 03:25:23 PM

YouTube的短视频我觉得市场定位策略还算蛮成功的，至少在我看来，YouTube的短视频就是单纯的为他自己的长视频引流的，基本都是他自己的长视频的切片。观众看顺眼了就会点作者的长视频。

[回复]

依云说:
Jul 03, 2026 04:38:10 AM

那成trailer了。但又不在技术上和长视频关联起来，就感觉用于快速了解视频主题不太行。用来了解频道风格倒是不错。

另外它的短视频播放器连进度条都没有，要是哪里没看清就很难控制着仔细看了。跟B站跳转就自动播放有一拼。

[回复]

石樱灯笼说:
Jul 03, 2026 09:23:41 PM

PC端是有进度条的。手机端我完全不用，YTB手机端广告太TM多了。

[回复]

依云说:
Jul 04, 2026 06:33:05 AM

诶有吗？上次看还是没有的，只能暂停和继续。最近改啦？

[回复]

石樱灯笼说:
Jul 04, 2026 01:39:48 PM

把鼠标放在视频最下方边缘那，才有进度条。
不过不支持键盘，空格不能暂停，左右键也不能快进和后退。但是上下键能切视频……反正是个半成品。
我关注的频道，看来都是把短视频trailer用了，都是剪自己长视频的精华，估计是为了吸新粉吧，毕竟现在新用户脑子都不行，注意力不集中，长视频都看不下去。

依云's Blog

Happy coding, happy living!