依云's Blog

5
30
2015

7

利用 mitmproxy 保存网页中的所有图片

有个需求，保存一个网页里的所有图片。

看上去是件简单的事情，拿火狐的 DownThemAll 扩展下载不就好了么。

然后发现那个网页仅限移动版访问。好吧，装个 UserAgent Switcher。然后发现它是通过 JavaScript 检测 UA 的，而 UserAgent Switcher 只改了 HTTP 头里的 UA。好吧，换个 muzuiget 的 User Agent Overrider。然后发现那些图片是动态加载的，DownThemAll 根本看不到地址。后来知道「查看网页信息」的「媒体」选项卡里也是可以保存图片的，不过那里显示的图片也不全……

于是我怒了，放弃继续尝试不同的工具，决定用程序员的方式来解决问题。

我管你怎么加载的，你总归是要从网络上下载图片不是么？那我就拿个代理把你访问过的所有图片全部保存下来好了 :-)

打开 mitmproxy 文档页，发现并没有现成的保存文件的功能。但是没关系，可以写脚本。看看示例，迅速写了以下不到二十行代码：

#!/usr/bin/mitmdump -s

from __future__ import print_function

import os
from urlparse import urlsplit

from libmproxy.protocol.http import decoded

def response(context, flow):
  with decoded(flow.response):
    if flow.response.headers['Content-Type'][0].startswith('image/'):
      url = urlsplit(flow.request.url)
      name = os.path.basename(url.path)
      with open(name, 'wb') as f:
        f.write(flow.response.content)
      print(name, 'written')

当然这是最终结果。不过和初版差别不大，毕竟就这么点儿代码。思路也很简单，凡是经过代理的图片都存起来。有点粗暴，但是好用。

代理脚本跑起来。然后启动一个全新的 Google Chrome，一个没有任何缓存存在的实例：

google-chrome-stable --proxy-server=http://localhost:8080 --user-data-dir=new

访问目标页面，启用移动版模拟并刷新，就可以看到各种图片都被保存下来了～～

Category: 网络 | Tags: mitmproxy HTTP 下载代理网络

5
17
2015

23

Linux 下在 Minecraft 里输入中文

Linux 下各种奇怪的地方总是会遇到输入启用不了的情况，比如 Sublime Text 就需要打补丁版。Teewords 以前能好好地使用输入法的，不知从什么时候起，启用输入法输入时，直接从键盘输入的编码和输入法提交的字符串都会被 teewords 接收并显示（teewords 版本号 0.6.3）。最近换了新本子，跑起 Minecraft 终于不那么卡了，所以也研究了一下怎么在 mc 里输入中文。

喵窝 wiki 里给出了一个脚本，是通过外部程序输入中文，然后粘贴到 mc 里来达到输入中文的效果的。然而粘贴功能在我的 mc 里是无效的。不过照着这思路，改进一下发现也能用。

首先，需要 xdotools。其次，需要一个输入文本的程序。我使用的是 zentiy，当然还有 kdialog、gdialog 之类的也可以用。最后，需要设置快捷键。

我的脚本如下：

#!/bin/bash -e

chars=$(zenity --title 中文输入 --text 中文输入 --width 500 --entry 2>/dev/null)
sleep 0.1
xdotool key --delay 150 Escape t
sleep 0.2
xdotool type --delay 150 "$chars"
xdotool key Return

原理很简单，在这个脚本被调用时，弹出一个对话框让用户输入文字。对话框关闭后，焦点应该回到 mc。发送 Escape 键「回到游戏」，然后发送「t」开启聊天。然后把文字发送过去并按回车。

很神奇，原来可以直接向它发送中文字符。不过那些延迟是需要的，不然会接收不完整。所以使用效果就是，对话框关闭之后，可以看到程序在往 mc 里一个个地输入文本并发送～

至于绑定快捷键，作为 Awesome 用户，可以做到只在 mc 的窗口绑定。定制性比较差的窗口管理器/桌面环境可能只能全局绑定了，会占用掉一个全局快捷键。

为什么我反对普遍地静态链接？

这是我查看知乎私信时不小心瞅到的问题所触发的。由于 Go 在国内的兴起，我对这个问题也多有思考，就放在这里记录一下好了。知乎的链接我就不贴了，带 nofollow 的都懒得贴了。

首先，我们搞清楚问题是什么。或者说，我反对的究竟是什么？

静态链接，即早期唯一的一种链接出二进制可执行文件的方式，把所有程序需要用到的库全部打包到一个文件里边。后来，由于存储空间越来越不够用，所以发展出了动态共享库，也就是把库编译成 so、dll 或者 dylib 这种由动态库装载器在程序运行前或者运行时进行链接的方案。

静态链接的优点：

方便分发，不会因为库的升级而导致程序无法运行。这一点没有严格指定依赖版本的 Arch Linux 用户应该都有所体会。当你更新某个库（比如 boost 或者 icu 什么的）之后，动态链接到旧库的程序会出错。
效率稍高。这个反正人类是体会不到的。

基于第一点，用于急救的重要程序最好使用静态链接，特别是 busybox。以前我会安装 busybox 的，后来因为 Arch 改用动态链接 C 库了，对于我不再有意义，所以卸载了。以后 C 库如果出问题就直接重启进救援系统了。

另外我还有静态链接的 32 位 Vim，为的是在 Vim 依赖库更新而 Vim 没更新时依旧有个顺手的编辑器可用。我一直自行编译 Vim 因此这个曾经十分有用。不过由于现在对经常变动导致问题的解释器支持采用运行时动态链接，所以基本不受影响了。

静态链接的缺点：

这个可以列出长长的一串了。

占用磁盘空间。我就不怎么喜欢 Haskell 写的程序，太占硬盘了，一个程序就几十M。当然换新电脑之后目前硬盘空间有富余。但是它们还是会渐渐被我的各种源码和虚拟机什么的填满的。
占用内存空间。可执行文件在执行时是需要映射到内存中的。如果使用动态链接，那么因为是同一文件，所以在内存时只需要映射一份就可以了。而静态链接，不仅因为来源于不同的文件而需要加载、映射多次，而且因为来自于不同的构建等原因，逻辑上相同的代码往往并不会造成映射之后的内存页相同，使得内存去重机制（如 UKSM）失效。

别说内存是白菜价，除非你来给我手上的笔记本、VPS、服务器、路由器、单板机等都配置个几十G的内存，我付给你等质量的白菜。还记得比尔·盖茨说过的话吗——「640K足够了」。够了吗？
占用 I/O 带宽。可执行文件越大，在内存里没有缓存时需要从外存读取的数据也就越多，耗时也就越长。而因为文件体积增大，内存资源越发不够用，I/O 缓存越少，导致缓存命中更低。
占用网络带宽。你可执行文件是从网上下的吧？你在国内看个视频还挺流畅，但是到世界各地去下软件你试试看？
运行时链接。我写了一个程序，支持 MySQL、SQLite3、PostgreSQL、MongoDB、Oracle 等等等等数据库。但是你显然不会用到所有的数据库支持吧？那你为什么要所有这些数据库的连接库来用一个 SQLite3 数据库的功能呢？使用运行时链接（dlopen 那些函数），程序可以在运行的时候动态判断并加载它此次运行所需要的动态库。
升级。openssl 爆出了一个很严重的安全漏洞，已经被修复了，你怎么办？当然是升级呗。那你希望是更新一个几M的包然后重启服务器解决问题，还是下载好几百M的程序、更新每一个你所用到的使用了 openssl 的程序？更何况那些程序本身不一定都更新了，也许为了安全你得自行编译其中的很大一部分（你可以期望有一个安全团队在半夜爬起床去更新一个软件，但是你觉得上千项目的开发者都会这么做吗）。你也不一定能够找到所有静态链接了有漏洞的 openssl 版本的程序，万一漏掉一个，你整个服务器的安全性就没了（所以 openssl heartbleed 漏洞更新之后建议是重启系统而不是重启各服务）。

更别说更底层的库了，比如 C 库或者 C++ 库。不至于人家更新了一行代码，你就要重装整个系统吧？

静态链接有它自身的用处，但是它并不适合所有情况，甚至并不适合大多数情况。动态链接以其微小的运行效率损失为代价，为不论是最终用户还是开发者、打包者提供了更为优秀的库管理方案。之所以很多人看到静态链接相对于动态链接的优势，我认为还是因为他们没什么机会看到静态链接、尤其是大量静态链接会带来的问题。

你不需要把程序都静态链接。你需要的只不过是一个优秀的包管理器和维护团队而已。

Category: Linux | Tags: linux 编译 go 编程语言

5
11
2015

14

使用 bcache 自制「混合硬盘」

换了新本子，外存是1T机械硬盘和16G固态硬盘。这16G SSD 速度挺快的尤其是读的时候，可它拿来放 / 都不够呢，于是拿来作缓存加速。根据局部性原理，虽然数据很多，但是最常访问的只占其中一小部分呢。

搜索的结果是有三个方案：bcache、dm-cache 和 Facebook 的 flashcache。前两者在官方内核里，不需要另外安装。我是最先在 Arch Wiki 上看到 bcache 的，后来又看 dm-cache，发现需要自己指定元数组的存储什么的，略复杂。而且一些评测显示 bcache 性能要好一点，所以就它了。

$$ \require{extpfeil} \rm{SSD} + \rm{HDD} \xlongequal{\rm bcache} \rm{SSHD} $$

配置起来其实很简单。首先安装 AUR 里的 bcache-tools，然后创建存储数据的分区和用于缓存的分区：

make-bcache -B /dev/sda2
make-bcache -C /dev/sdb1

教程上使用的是 SSD 的分区。换成 SSD 的块设备本身应该也可以。

参数什么的我没调。然后是把缓存设备的 UUID 写到 /sys/block/bcache0/bcache/attach 里。

为了最优性能，往 /sys/block/bcache0/bcache/cache_mode 里写入「writeback」来更改其缓存策略为「写回」。默认是「写通」（writethrough），也就是写的时候同时写缓存和后端设备，不会在缓存出问题时丢数据，但是会慢。另一个可选的策略是「writearound」，不知道该怎么译，是只写到后端设备而不写缓存的。最后一个是「none」，不知道用了它会发生什么……

换出策略使用默认的 LRU（最近最少使用）。剩下的两个（FIFO 和随机）应该效果没 LRU 好。

这些设备是会记住的，无需在启动时重启配置。至少我用的 4.0.1 内核是这样。

弄好之后就可以折腾 /dev/bcache0 这个块设备了。我放弃了之前使用文件级的 eCryptfs，改用在备份里使用得挺爽的块设备级的 dm-crypt，然后才格式化成 ext4。也就是：

$$ 文件数据 \xrightarrow{\textrm{I/O相关系统调用}} \rm{ext4} \xrightarrow{加密} \textrm{dm-crypt} \xrightarrow{缓存} \rm{bcache} \xrightarrow{写入} \rm{SSD} + \rm{HDD} $$

所以我的 /etc/mkinitcpio.conf 里要加上 bcache 和 encrypt 两个 hook：

HOOKS="base udev autodetect modconf block bcache encrypt filesystems keyboard fsck resume"

（不过这样子不能用外接 USB 键盘输入密码的。）

然后 mkinitcpio -p linux 一下，生成新的 initramfs 镜像。

为了共享缓存，我把 / 和 /home 放一起了（不过我猜对 /dev/bcache0 进行分区也是可以的？）。虽然这样子整个 / 用去了60多G空间，但是缓存的命中率还是非常高的——

>>> bcache-status -a
--- bcache ---
Device                      /dev/bcache0 (254:0)
UUID                        07a9b6a5-7f18-4950-84d6-c90abaaf65dc
Block Size                  0.50KiB
Bucket Size                 512.00KiB
Congested?                  False
Read Congestion             2.0ms
Write Congestion            20.0ms
Total Cache Size            14.91GiB
Total Cache Used            14.91GiB    (100%)
Total Cache Unused          0B  (0%)
Dirty Data                  0.50KiB     (0%)
Evictable Cache             14.17GiB    (95%)
Replacement Policy          [lru] fifo random
Cache Mode                  writethrough [writeback] writearound none
Last 5min Hits              439 (92%)
Last 5min Misses            38
Last 5min Bypass Hits       424 (100%)
Last 5min Bypass Misses     0
Last 5min Bypassed          61.50MiB
Last Hour Hits              46003       (88%)
Last Hour Misses            6051
Last Hour Bypass Hits       94043       (100%)
Last Hour Bypass Misses     0
Last Hour Bypassed          400.00MiB
Last Day Hits               79485       (88%)
Last Day Misses             10214
Last Day Bypass Hits        170383      (100%)
Last Day Bypass Misses      0
Last Day Bypassed           602.00MiB
Total Hits                  79485       (88%)
Total Misses                10214
Total Bypass Hits           170383      (100%)
Total Bypass Misses         0
Total Bypassed              602.00MiB

bcache-status 脚本来自这里。

感觉还挺快的，特别是各种程序如火狐、gvim、pidgin、zsh 的启动速度，以及 mlocate、pacman 的搜索速度都非常快。没有对比数据，因为我没有试过在这个本子上不用 bcache 的情况下把系统弄起来。之前的旧本子可能因为分区太满导致碎片严重，所以 I/O 性能很差劲的。

Category: Linux | Tags: linux Arch Linux bcache SSD 硬盘

4
28
2015

15

再见，莫名其妙的知乎！

没想到会这样决定不再在知乎上产生新内容。虽然网站体验做得很差劲，其实知乎里有些人还是很不错的。

做出此决定的原因是知乎新实行的「不透明的审查制度」。

我在一个回答下边做出了可能会令某些人心里产生不适的内容：

更讽刺的是提问者叫 @不求人666 233

提问者名为「不求人666」，却提出了一个非常容易找到答案的问题，所以我才那么说。你若是见到亲友手上拿着钱包，却翻箱倒框地寻找，也是会大笑的是吧？

但是知乎认为这是「不友善行为」。什么叫「不友善行为」呢，知乎关于此规范的定义如下：

轻蔑：贬低、轻视他人及其劳动成果。

对别人做出的搞笑行为大笑是贬低还是轻视呢？那如果有人提出一个很基础的问题，我叫他去好好再读一遍基础教程，他就觉得自己受到了轻视，就可以来借此限制我在知乎上的行为了？

诽谤：捏造、散布虚假事实，损害他人名誉。

难道这个叫「不求人666」的用户不叫「不求人666」？

嘲讽：以比喻、夸张、侮辱性的手法对他人或其行为进行揭露或描述，以此来激怒他人。

哪里有比喻和夸张呢？我笑点低也不行吗？小小地嘲笑一下算「侮辱性的手法」？

挑衅：以不友好的方式激怒他人，意图使对方对自己的言论作出回应，蓄意制造事端。

什么是「不友善行为」？知乎答：「就是不友好的回应」。

羞辱：贬低他人的能力、行为、生理或身份特征，让对方难堪。

有么？名字是用户自己起的。

谩骂：以不文明的语言对他人进行负面评价。

「讽刺」这个词不文明么？

歧视：针对他人的民族、种族、宗教、性取向、性别、年龄、地域、生理特征等身份或者归类的攻击。 

威胁：许诺以不良的后果来迫使他人服从自己的意志。

我通过「申诉」询问知乎管理员我的评论违反了哪一条。结果是：

知乎：不友善内容是指经知乎内部确认的不友善内容

如果真违反了哪一条规范，你要扣什么东西就扣吧。可是你好歹也告诉我到底违反了啥呀？

有位民警在大街上看着一个人不顺眼，于是上前：「你违法了，我要拘留你。」

那人问：「我违反什么法了？」

民警：「根据《XXX 法》，以下行为违法：一、闯红灯；二、随地乱扔垃圾；三、打架斗殴；四、其它违法行为。哦，你违反了这里的第四点。跟我走吧！」

2015年6月11日更新：另见《哔~知乎，离开的Q&A》。

Category: 未分类 | Tags: 知乎中国特色

4
28
2015

2

为什么你不应该安装12306的证书

中华人民共和国铁道部铁路客户服务中心在其首页上说：

为保障您顺畅购票，请下载安装根证书。

真的是这样吗？

安装该根证书意味着什么？

当然意味着你在12306网站上买票时不会遇到证书错误了。但是除此之外呢？

安装之后，你的计算机系统（或者浏览器）会信任该「CA 机构」所签名的所有证书。根据安装说明，该证书不仅能签名用于标识网站的身份的证书，还能签名应用程序，即 .exe 和 .dll 文件。

这意味着，如果铁道部没有按照规范正确管理该根证书对应的私钥的话，一旦被滥用，或者被攻击盗用，那么：

攻击者可以实施中间人攻击，伪装成支付宝、网上银行、微信、网页邮箱等网站，获取你的登录和隐私信息，篡改网页内容，以你的身份提交转账和订单、与你的亲友同事聊天等。
攻击者可以为病毒和木马签名。拥有一个受系统信任的签名，恶意软件更容易在用户不知不觉间潜入。
这是一个 SHA1 签名的证书。因为其安全性比较低，各大浏览器厂商将逐渐淘汰该类证书。
当然还有一些其它的用法，毕竟这个证书的权限非常大。

而铁道部能按照规范正确管理该根证书对应的私钥吗？很多人连工信部（CNNIC）的根证书都不信任呢。而工信部，即使出现过下级机构违规使用证书以至于 Google 和 Mozilla 都不再信任之，至少工信部曾经得到过各操作系统和浏览器厂商的信任，不管做没做到，人家至少知道应该怎么做。而铁道部呢？根本不是干这行的，也从未在这方面做过多少努力，连正规的 HTTPS 都不知道用，你觉得如何呢？

那要怎么用12306呢？

火狐有个功能，叫「添加证书例外」。在遇到不被信任的网站证书的时候，如果你确知你没有被骗，你可以为该网站添加例外，如图所示：

添加例外之后，火狐将这个证书和这个网站关联起来。也就是说，如果12306突然换证书了，你会得到错误消息；如果别的网站也使用铁道部签名的证书，你也会得到错误消息。而这些错误消息，绝大部分是在告诉你有人正在进行中间人攻击。

HTTPS 保证了端到端的数据安全性（私密性、完整性），使得你即使在公共场合上网，或者本地网络有不可信的人时也可以安心上网。请不要随意破坏这份安全。

其它链接

12306的证书问题 - JayXon

Category: 网络 | Tags: 火狐安全 ssl 中国特色 Https

4
26
2015

4

鸢尾花

（点击看大图）

好多年了，竟然在现实生活中见到了这么多鸢尾花。

多年前，外婆家种了那么一盆鸢尾，不过从来没有开过花。后来经历一场事故之后，那盆鸢尾和三七（问过 Google，很可能是「景天三七」）一起拿到了我家。有株三七还开过一次花，很小的五瓣尖角白花，中间还有好看的花蕊。但是鸢尾，始终不曾开过花，应该是没人照料的缘故。

后来，我去上大学了。某年四月，才得知那盆鸢尾竟然在我不在的时候悄然开花了。花很漂亮，但是五一假期回家的时候，父母刚搬过家，鸢尾已经被毫无同情心的父亲抛弃了。于是，虽然没有费心去养，可也在那么久了，而在它最美丽的时候，我却不在。只能面对130万像素的手机摄像头拍摄出来不清晰还偏色严重的照片失望。

没想到又过了好几年，竟然无意间发现了它们。只能说声好久不见了。

Category: 未分类 | Tags: 花

4
26
2015

2

发布两个编译好的 Haskell 程序（Arch Linux 64 位版本）

Haskell 程序一向编译起来费力，得先下个巨大的 GHC，然后从 Hackage 上下一堆包然后慢慢编译。所以我在这里把自己用的程序放出来。Arch Linux 的 Haskell 程序打包太复杂了，所以不打包了。连二进制包也懒得打。

这两个程序是 shellcheck 和 cgrep。

shellcheck 是一个 bash / POSIX sh 脚本 lint 工具。就是指出程序源码中可能出错的地方，相当于 jshint 之于 JavaScript、pylint 之于 Python（但是不含风格检查）、gcc / clang 的警告之于 C。

cgrep 就是 context-aware grep，比如搜索注释或者字符串里的东西之类的。支持解析几种编程语言。

程序是在 Arch Linux 上编译的，但其它 Linux 也许也可以使用。

下载地址：shellcheck-0.3.7.xz, cgrep-6.4.12.xz.

>>> sha1sum cgrep-6.4.12.xz shellcheck-0.3.7.xz
0588ee29a1a17c1cddc816a8193d8494db7c03cf  cgrep-6.4.12.xz
376b58d485603a7622f83f095a30bddc1da34376  shellcheck-0.3.7.xz

Category: Haskell | Tags: 下载 Haskell

4
15
2015

0

在 Python 里 disconnect UDP 套接字

UDP 套接字是可以使用 connect 系统调用连接到指定的地址的。从此以后，这个套接字只会接收来自这个地址的数据，而且可以使用 send 系统调用直接发数据而不用指定地址。可以再次调用 connect 来连接到别的地方。但是在 Python 里，一旦调用 connect 之后，就再也回不到最初的能够接收从任意地址来的数据的状态了！

这是 Python 的 API 限制，没办法给 connect 方法传递到 AF_UNSPEC 地址簇（在 C 代码里写死了的）。C 里边就可以做到的（代码来自这里）：

int disconnect_udp_sock(int fd) {
 struct sockaddr_in sin;        

 memset((char *)&sin, 0, sizeof(sin));
 sin.sin_family = AF_UNSPEC;
 return (connect(fd, (struct sockaddr *)&sin, sizeof(sin)));
}

不过既然是 Python 的限制，拿 ctypes 就可以绕过了嘛，有些麻烦就是了：

from ctypes import CDLL, create_string_buffer

def disconnect(sock):
  libc = CDLL("libc.so.6")
  buf = create_string_buffer(16) # sizeof struct sockaddr_in
  libc.connect(sock.fileno(), buf, 16)

AF_UNSPEC 的值是 0，所以把一个和 struct sockaddr_in 一样长的全零缓冲区传给 connect 就可以了 :-)

Category: python | Tags: Python linux 网络

4
12
2015

13

遥远

不少我喜欢的技术都在我喜欢的公司里使用呢。只是，那里没有我。

Category: 未分类 | Tags:

依云's Blog

Happy coding, happy living!

利用 mitmproxy 保存网页中的所有图片

Linux 下在 Minecraft 里输入中文

为什么我反对普遍地静态链接？

使用 bcache 自制「混合硬盘」

再见，莫名其妙的知乎！

为什么你不应该安装12306的证书

安装该根证书意味着什么？

那要怎么用12306呢？

其它链接

鸢尾花

发布两个编译好的 Haskell 程序（Arch Linux 64 位版本）

在 Python 里 disconnect UDP 套接字

遥远

随机文章

最新评论

最新留言

链接

计数器

存档

功能

RSS

权利声明

Happy coding, happy living!

安装该根证书意味着什么？

那要怎么用12306呢？

其它链接

随机文章

标签云

最新评论

最新留言

链接

计数器

存档

功能

RSS

权利声明