本文来自依云's Blog,转载请注明。
现在YouTube首页的视频推荐越来越差了,好多标题党、clickbait,故意把讨论的主题藏起来。经常我点进去看了好久,才发现原来并没有讨论什么我之前不知道信息,又或者讨论的话题我完全不感兴趣。再不就是把我想知道的信息藏到不知道哪个片段里。虽然我有GlobalSpeed扩展可以依内容信息密度来方便地调整播放速度,但是调太快(超过2x)就听不清啦。总之是好多视频点开看之前十分吸引人,但看完或者看一半时就想骂人、点踩退出,十分浪费时间。
正好最近在尝试Gemini API,于是灵光一现,写了个脚本,使用yt-dlp下载视频字幕,然后调用Gemini API来总结内容。
#!/usr/bin/python3
import sys
import json
import subprocess
import tempfile
from pathlib import Path
import httpx
GEMINI_KEY = 'YOUR GEMINI KEY HERE'
URL = 'https://generativelanguage.googleapis.com/v1beta/models/gemini-3.1-flash-lite:streamGenerateContent?alt=sse'
PROMPT = '根据以下字幕文本总结视频内容。总结结果中请不要包含任何赞助商推广信息。'
def main(url, sublang):
with tempfile.TemporaryDirectory() as d:
subprocess.run([
'yt-dlp', '--sub-langs', sublang, '--write-subs', '--write-auto-subs', '--skip-download',
url,
],
cwd=d,
check=True,
)
p = Path(d)
try:
file = tuple(p.iterdir())[0]
except IndexError:
sys.exit('No subtitles.')
for _ in range(2):
try:
do_request(file)
break
except httpx.ReadError as e:
print(e, file=sys.stderr)
def do_request(filepath):
client = httpx.Client(http2=True)
filename = filepath.name
with filepath.open() as f:
subtitles = f.read()
parts = [{
'text': PROMPT,
}, {
'text': f'文件名:{filename}\n文件内容:\n{subtitles}',
}]
j = {
'contents': [{
'parts': parts
}],
}
with client.stream(
'POST', URL,
headers = {
"X-goog-api-key": GEMINI_KEY,
"Content-Type": "application/json",
},
json=j, timeout=120,
) as r:
for line in r.iter_lines():
if not line.startswith('data: '):
continue
line = line.removeprefix('data: ')
data = json.loads(line)
for a in data['candidates']:
for b in a['content']['parts']:
text = b['text']
if not text:
break
print(text, end='', flush=True)
print()
if __name__ == '__main__':
import argparse
parser = argparse.ArgumentParser()
parser.add_argument('URL',
help='YouTube URL')
parser.add_argument('--lang', default='en',
help='choose subtitles language')
args = parser.parse_args()
main(args.URL, args.lang)
脚本依赖Python和httpx库。当然鉴于httpx已经不再更新,你换成httpx2应该也能用。Gemini Key可以去这里生成,然后填到脚本开头。我使用的是gemini-3.1-flash-lite这个模型,因为免费版本中,它的每日请求数配额比较充足。
当然啦,视频要有CC字幕这个脚本才能用,否则会报错。默认使用英文字幕,包含自动生成的版本。如果是中文视频,可以使用--lang zh.*参数指定用中文字幕。
2026年07月01日更新:脚本后续有些改进,包括支持传递yt-dlp参数、支持使用参数指定模型、支持本地模型、支持后续对话等。脚本放GitHub上了:yt-summarize。

Jun 15, 2026 09:37:36 PM
如果有在使用 Gemini 的话,我现在都是直接把 youtube 视频丢给 Gemini app,或者 Gemini 浏览器的侧边栏/桌面快捷方式啥的,它的工作逻辑也差不多是那样,还省去了自己跑脚本啥的时间,我觉得还蛮方便的,你也可以试试看
Jun 16, 2026 10:26:04 AM
开网页感觉更重,还要自己每次都准备提示词呀。另外这个脚本给B站用也是可以的。
Jun 16, 2026 10:48:12 AM
不过我试了一下,没有字幕的视频网页版也能总结内容,这个挺不错的。要是网页能轻量些就好了。
Jun 16, 2026 06:06:51 PM
这样用好污染对话历史啊……
Jun 17, 2026 10:48:59 AM
油土鳖我感觉推荐视频还行,虽然前几年几次大更新后,断崖式的质量变差,开始推付费推广和已经看过的视频,好在付费推广可以直接用ublock干掉。
当然也有可能是我只看特定的订阅和特定的关键词,跟标题党和clickbait不太能沾边。看内容只看几个专业性比较强的,只要发现是那种一知半解抄袭别人稿件然后口嗨的,立刻拉黑,油土鳖上的工厂号还是比较少的,不像B站一样基本上首页全是工厂号。唯一一次遇到的就是一个停不下来的钓鱼直播,在那放valve的历史采访视频,然后公屏不停刷钓鱼链接,举报都不好使,我觉得这种玩意用AI根本处理不了。
那种“点开看之前十分吸引人,或者前1分钟吸引人”的我倒觉得国内视频网站更多,短视频网站更是铺天盖地。就是不知道Gemini的总结效果怎样,我试过把文本导入到国产AI里做总结,基本上驴唇不对马嘴。
Jun 18, 2026 05:56:52 AM
我比较少看B站,别的国内视频站就更不看了。短视频我不看的(时间太短根本讲不清楚一个话题的,感觉完全是在浪费时间),YouTube的我全部屏蔽掉了。
Jun 30, 2026 02:02:07 PM
只是好奇,为什么不使用现有的 youtube 总结扩展程序,不过 uoutube 扩展程序确实风险比较大,毕竟能访问 google 账户
Jul 01, 2026 07:34:38 AM
因为它们不能在终端用啊。不把网址直接发给Gemini也有同样的原因:我要减少交互次数,不要一直盯着软件干活。
在终端里运行的时候,我就可以看到不确定是否感兴趣的视频,把链接丢过去,然后继续浏览。依此重复。过一会儿再去终端里一个个看结果。
Jul 01, 2026 07:38:20 AM
另外我看了一眼这类扩展,有挺多,筛选也是成本。有些依赖它自己的服务,会有额外的隐私风险。
反正这脚本写起来又不费事,而且部分功能其实我也其它脚本里也能复用。