依云's Blog

5
30
2015

利用 mitmproxy 保存网页中的所有图片

有个需求，保存一个网页里的所有图片。

看上去是件简单的事情，拿火狐的 DownThemAll 扩展下载不就好了么。

然后发现那个网页仅限移动版访问。好吧，装个 UserAgent Switcher。然后发现它是通过 JavaScript 检测 UA 的，而 UserAgent Switcher 只改了 HTTP 头里的 UA。好吧，换个 muzuiget 的 User Agent Overrider。然后发现那些图片是动态加载的，DownThemAll 根本看不到地址。后来知道「查看网页信息」的「媒体」选项卡里也是可以保存图片的，不过那里显示的图片也不全……

于是我怒了，放弃继续尝试不同的工具，决定用程序员的方式来解决问题。

我管你怎么加载的，你总归是要从网络上下载图片不是么？那我就拿个代理把你访问过的所有图片全部保存下来好了 :-)

打开 mitmproxy 文档页，发现并没有现成的保存文件的功能。但是没关系，可以写脚本。看看示例，迅速写了以下不到二十行代码：

#!/usr/bin/mitmdump -s

from __future__ import print_function

import os
from urlparse import urlsplit

from libmproxy.protocol.http import decoded

def response(context, flow):
  with decoded(flow.response):
    if flow.response.headers['Content-Type'][0].startswith('image/'):
      url = urlsplit(flow.request.url)
      name = os.path.basename(url.path)
      with open(name, 'wb') as f:
        f.write(flow.response.content)
      print(name, 'written')

当然这是最终结果。不过和初版差别不大，毕竟就这么点儿代码。思路也很简单，凡是经过代理的图片都存起来。有点粗暴，但是好用。

代理脚本跑起来。然后启动一个全新的 Google Chrome，一个没有任何缓存存在的实例：

google-chrome-stable --proxy-server=http://localhost:8080 --user-data-dir=new

访问目标页面，启用移动版模拟并刷新，就可以看到各种图片都被保存下来了～～

Category: 网络 | Tags: mitmproxy HTTP 下载代理网络

4
26
2015

发布两个编译好的 Haskell 程序（Arch Linux 64 位版本）

Haskell 程序一向编译起来费力，得先下个巨大的 GHC，然后从 Hackage 上下一堆包然后慢慢编译。所以我在这里把自己用的程序放出来。Arch Linux 的 Haskell 程序打包太复杂了，所以不打包了。连二进制包也懒得打。

这两个程序是 shellcheck 和 cgrep。

shellcheck 是一个 bash / POSIX sh 脚本 lint 工具。就是指出程序源码中可能出错的地方，相当于 jshint 之于 JavaScript、pylint 之于 Python（但是不含风格检查）、gcc / clang 的警告之于 C。

cgrep 就是 context-aware grep，比如搜索注释或者字符串里的东西之类的。支持解析几种编程语言。

程序是在 Arch Linux 上编译的，但其它 Linux 也许也可以使用。

下载地址：shellcheck-0.3.7.xz, cgrep-6.4.12.xz.

>>> sha1sum cgrep-6.4.12.xz shellcheck-0.3.7.xz
0588ee29a1a17c1cddc816a8193d8494db7c03cf  cgrep-6.4.12.xz
376b58d485603a7622f83f095a30bddc1da34376  shellcheck-0.3.7.xz

Category: Haskell | Tags: 下载 Haskell

| Theme: Aeros 2.0 by TheBuckmaker.com

依云's Blog

Happy coding, happy living!

利用 mitmproxy 保存网页中的所有图片

发布两个编译好的 Haskell 程序（Arch Linux 64 位版本）

随机文章

最新评论

最新留言

链接

计数器

存档

功能

RSS

权利声明

依云's Blog

Happy coding, happy living!

利用 mitmproxy 保存网页中的所有图片

发布两个编译好的 Haskell 程序（Arch Linux 64 位版本）

随机文章

标签云

最新评论

最新留言

链接

计数器

存档

功能

RSS

权利声明