Linux - 依云's Blog

2
25
2017

中键的功能

鼠标中键，就是左键和右键之间的那个键啦。常见的鼠标上它在滚轮上。所以你知道了，滚轮是可以往下按的哦。如果是触摸板并且没有中键的话，可以配置双指点击来作为中键使用的（synclient ClickFinger2=3）。

中键具有以下好用的功能哦～（括号里是适用的场景）

粘贴选择区，不用按复制和粘贴的快捷键了～不过选择区的寿命通常比较短，只适合快速的粘贴操作。另见 X Window 中的剪贴板一文。（Linux 桌面、macOS 终端、gpm）
在后台新标签页打开链接（火狐、Google Chrome 等浏览器都支持）
关闭标签页（基本上也是用于网页浏览器。我自己的 GVim 也支持）
定位滚动条，可以快速地定位到开头、结尾，或者之前的位置。不需要拖来拖去的麻烦。可惜 GTK 3 里这个功能不好用的了。（GTK 2、Qt）
移动画布（GIMP、Inkscape 等作图软件、GNOME 的文档查看器 Evince）

这只是比较通用的功能。我的 Awesome 还配置了使用中键关闭窗口呢（「关闭标签页」语义的扩展）。火狐的一些菜单项也支持中键点击，比如书签菜单，右键的「查看图像」菜单，比如前进/后退按钮，以及在它上边点击右键出来的历史记录项目。

总结一下中键的语义：

在可以粘贴的地方，粘贴
在打开对象时，打开新对象而不取代已有者
在打开的对象本身上时，关闭之
在可定位对象上，移动之

Category: Linux | Tags: linux X Window X window

12
22
2016

利用 systemd 的 watchdog 功能重启卡住的服务

我在用 offlineimap。用着用着就发现一个问题：偶尔 offlineimap 会卡在网络上不动弹了。跟 getmail 一个德性……

但是 offlineimap 又跟 getmail 有点不一样，它是持续运行着的。虽然非要把之前那个 killhung 程序拿来用不是不可以，但我还是重新弄了一个更优雅的方案：systemd watchdog。

我的 offlineimap 本来就是用 systemd 服务的方式来跑的，所以很适合这样的改造呢。只是，当我瞅了一眼源码之后，我就放弃了 patch offlineimap 的打算。很难在合适的地方添加 watchdog 相关的代码。

既然从内部着手不好做，那就从外部写一个 wrapper 好了，反正 offlineimap 跟 getmail 不一样，正常情况下一直在输出东西，就把这个作为它的「心跳」特征好了。当然这个 wrapper 还可以给其它程序用。

于是，watchoutput 程序诞生了！稍微改一下 offlineimap 的 .service 文件，像这样子就好了：

[Unit]
Description=Offlineimap Service

[Service]
Type=notify
ExecStart=.../watchoutput /usr/bin/offlineimap
TimeoutStopSec=3s
SyslogIdentifier=offlineimap
Restart=on-failure
WatchdogSec=70
LimitCORE=0

[Install]
WantedBy=default.target

加上LimitCORE=0是为了阻止重启的时候由于 SIGABRT 信号导致 coredump，浪费磁盘空间。

用了几天之后，终于观察到一次由 watchdog 触发的重启：

12月 19 12:26:53 lilywork offlineimap[21623]:  Establishing connection to imap.exmail.qq.com:993 (main-remote)
12月 19 12:28:03 lilywork systemd[687]: offlineimap.service: Watchdog timeout (limit 1min 10s)!
12月 19 12:28:03 lilywork systemd[687]: offlineimap.service: Killing process 21623 (python3) with signal SIGABRT.
12月 19 12:28:03 lilywork systemd[687]: offlineimap.service: Killing process 21625 (offlineimap) with signal SIGABRT.
12月 19 12:28:03 lilywork systemd[687]: offlineimap.service: Main process exited, code=dumped, status=6/ABRT
12月 19 12:28:03 lilywork systemd[687]: offlineimap.service: Unit entered failed state.
12月 19 12:28:03 lilywork systemd[687]: offlineimap.service: Failed with result 'core-dump'.
12月 19 12:28:03 lilywork systemd[687]: offlineimap.service: Service hold-off time over, scheduling restart.
12月 19 12:28:03 lilywork systemd[687]: Stopped Offlineimap Service.
12月 19 12:28:03 lilywork systemd[687]: Starting Offlineimap Service...
12月 19 12:28:04 lilywork systemd[687]: Started Offlineimap Service.

没过几天，我又给这个 watchoutput 的脚本找到另外的用处：自动重启网络。

我家里的笔记本连 Wi-Fi 不知怎么，这些天经常会卡住（只发不收，一直处于 ARP 找网关的状态）。内核之前报过一次错，现在也没反应了。

于是：

[Unit]
Description=Watch for network availability

[Service]
Type=notify
ExecStart=.../watchoutput --retry-on-exit 2 --wait-before-retry 30 --ignore-stderr \
    -- ping -i 30 192.168.1.1
Restart=on-failure
WatchdogSec=70
StandardOutput=null
StandardError=journal
LimitCORE=0
SyslogIdentifier=watch-network

[Install]
WantedBy=default.target

拿 watchoutput 监控 ping 网关的输出，每30秒 ping 一次，如果70秒还没反应就重启它自己。然后我们还需要重新连接网络。在 /etc/systemd/system 下建立 netctl-auto@wlan0.service.d 目录，并在其下建立一个 watchdog.conf 文件，给 netctl-auto@wlan0.service 服务增加一项配置：

[Unit]
PartOf=watch-network.service

这样当 watch-network.service 重启的时候，netctl-auto@wlan0.service 就会自动重启了～

Category: Linux | Tags: linux systemd

11
3
2016

诡异多多的 bash

要说哪个 shell 最复杂难学，我肯定回答 zsh。而要说哪个 shell bug 最多，毫无疑问是 bash 了。shellshock 这种大家都知道的我就不说了。bash 有很多很诡异的角落，昨天我亲身碰到一个。

我有一个 Python 程序 A，会使用 subprocess 带 shell=True 跑一行 shell 命令。那条命令会在后台跑另外一个 Python 程序 B。诡异的事情是，当我向 B 的进程发送 SIGINT 时，无法结束它，以及它下边带的一个 tail 进程。一开始我还没注意到 B 的进程本身没有被 SIGINT 杀死，是在无效的情况下被 A 用 SIGKILL 杀死的。我只看到那个 tail 程序还活着。所以我去处理了一下 KeyboardInterrupted 异常，来结束掉那个 tail。

结果很诡异：KeyboardInterrupted 异常并没有发生。通过 strace 观察可以看到，B 进程在读 tail 的输出，然后收到了 SIGINT，然后接着读 tail 的输出……我一开始还以为这个和 PEP 475 相关，以为是 Python 自动重启了被中断的系统调用，所以没来得及处理信号（Python 的信号并不是及时处理的）。然后就去仔细看文档。结果文档告诉我，如果注册了信号处理函数，并且它抛出异常的话，那么被中断的系统调用是不会被重试的。所以这就不对了。

然后我又测试了直接在终端运行 B，而不是通过 A 去运行。本来我开发的时候就是这么测试它的，也没遇到什么怪异的现象。结果确实没有什么怪异的事情发生：即使我使用 kill 命令只给 B 发送 SIGINT 信号，Python 的 KeyboardInterrupted 逻辑会被触发，然后它主动杀掉 tail 进程。（使用 Ctrl-C 的话，B 和 tail 都会收到 SIGINT 信号的。）

疑惑的时候，我又想到了拿 SIGINT 去杀那个不死的 tail 进程，这才发现它也出现奇怪的行为了：正在读 inotify 的文件描述符呢，来了个 SIGINT 信号，然后它接着读 inotify 去了……跟 B 出现的问题一样。我又去查了 tail.c 的源码，也没发现它对 SIGINT 有特殊的处理啊。

难道是继承过来的？man 7 signal 了一下，果然：

During an execve(2), the dispositions of handled signals are reset to the default; the dispositions of ignored signals are left unchanged.

所以 tail 和 B 继承了一个「忽略 SIGINT」的行为。（nohup 就是用的类似的手段啊。）

于是 strace -f 了整个从 A 开始的进程树，最后发现这问题和 Python 并没有什么关系，而是 bash 的错！

A 是用 shell=True 调用的命令，所以它调用了 /bin/sh。系统是 CentOS，所以 /bin/sh 是指向 bash 的。所以这里实际上调用了 bash，而它的处理有问题。

要重现这个 bug 很容易：

bash -c 'sleep 1000 &'

然后这个 sleep 进程就会忽略 SIGINT 和 SIGQUIT 了。我也不明白 bash 这是想要做什么。

之前也遇到过另外几个 bash 的 bug（或者是 feature？）——

在终端中，在脚本中执行交互式 bash 时，第一个 bash 进程会将自己设为前台进程组，导致后来的进程收到 SIGTTIN 或者 SIGTTOU。很神奇，两行同样的命令，第一条和后边的行为不一致。
在 bash 中，执行不带 shebang 的 shell 脚本时，脚本会在当前 bash 进程内执行，造成 history 命令的行为异常。
这个是听说的。输出失败时，未写入目标的内容仍留在缓冲区内，会在奇怪的地方冒出来。

以后还是尽量避开 bash 吧。有 zsh 用 zsh，有 dash 用 dash；它们都没有本文提到的这些问题。

Category: Linux | Tags: shell bash

9
13
2016

Linux 下的 Wi-Fi 分享

首先看看你的网卡和驱动组合是否支持这样的操作。

>>> iw list | grep -A2 combinations:
        valid interface combinations:
                 * #{ managed } <= 1, #{ AP, P2P-client, P2P-GO } <= 1, #{ P2P-device } <= 1,
                   total <= 3, #channels <= 2

上边这个输出说明支持，并且频道可以不一样。

然后，添加一个用途 AP 的网络接口，并配置 IP 地址。我的无线网络接口名字是 wlan0，因为我通过创建空 /etc/udev/rules.d/80-net-setup-link.rules 文件的方式禁用了 systemd 的网络接口改名。

sudo iw dev wlan0 interface add wlan0_ap type __ap
sudo ifconfig wlan0_ap 192.168.17.1

配置 NAT：

echo 1 | sudo tee /proc/sys/net/ipv4/ip_forward
sudo iptables -w -t nat -A POSTROUTING -s 192.168.17.0/24 -j MASQUERADE

配置 DHCP。我用的是 dnsmasq。它本来是作为 DNS 缓存用的，但是也支持 DHCP，那就用它了：

interface=wlan0_ap
no-dhcp-interface=wlan0
dhcp-range=192.168.17.50,192.168.17.150,12h

注意不要在其它只提供 DNS 服务的接口上提供 DHCP 服务，以免出现冲突。

然后就可以开启热点啦。hostapd 配置如下：

interface=wlan0_ap
driver=nl80211
ssid=名字
channel=1
hw_mode=g
ieee80211d=1
country_code=cn
ieee80211n=1
ieee80211h=1
ignore_broadcast_ssid=0
auth_algs=1
wpa=2
wpa_passphrase=secret
wpa_key_mgmt=WPA-PSK
wpa_pairwise=TKIP
rsn_pairwise=CCMP

最后把它们跑起来就可以了。

为了方便使用，我创建了个 systemd 服务 wlan0_ap.service：

[Unit]
Description=Setup wlan0_ap
Before=hostapd.service
After=sys-subsystem-net-devices-wlan0.device
After=iptables.service

[Service]
Type=oneshot
RemainAfterExit=yes
ExecStart=/usr/bin/iw dev wlan0 interface add wlan0_ap type __ap
ExecStart=/usr/bin/ip address add dev wlan0_ap 192.168.17.1/24
ExecStart=/usr/bin/iptables -w -t nat -A POSTROUTING -s 192.168.17.0/24 -j MASQUERADE
ExecStop=-/usr/bin/iptables -w -t nat -D POSTROUTING -s 192.168.17.0/24 -j MASQUERADE
ExecStop=/usr/bin/ip address delete dev wlan0_ap 192.168.17.1/24
ExecStop=/usr/bin/iw dev wlan0_ap del

[Install]
WantedBy=hostapd.service

systemctl enable wlan0_ap 之后就可以直接 systemctl start hostapd 来启动了～当然也很容易停止服务：systemctl stop hostapd wlan0_ap。我的 dnsmasq 总是开启的，所以就不用加依赖了。还有 ipv4_forward 我也是早就写到配置文件 /etc/sysctl.d/99-sysctl.conf 里的。

Category: Linux | Tags: linux 网络 systemd

6
17
2016

Linux 作业控制实践

事情的起因是这样子的。

有一个非常常用的调试工具叫 strace。输出的信息是纯文本，一大片看起来累。在 Vim 里可以给它高亮一下，就好看多了。再加上各种搜索、清理，以及非常赞的 mark.vim 插件，用起来就舒服多了！

然而我并不想每次都让 strace 写到文件里然后再拿 Vim 去读，因为还得记着清理那些文件。如果数据量不大的话，直接通过管道传给 Vim 多好。

于是有了如下 zsh 函数：

(( $+commands[strace] )) && strace () { (command strace "$@" 3>&1 1>&2 2>&3) | vim -R - }

效果是达到了，但是这样子要中断 strace 的话，得去另一个终端里去 kill。按 Ctrl-C 的话，SIGINT 也会被发给 Vim，导致 Vim 显示空白。

所以嘛，得把 Vim 放到一个单独的进程组里，这样就不会在 Ctrl-C 的时候收到 SIGINT 了。但是，Vim 还得用终端啊。

一开始，我用自制的 expect.py 模块，给 Vim 分配了一个新的终端。这样子 Ctrl-C 好用了。然后我发现 Ctrl-Z 不好用了……

Ctrl-Z 还是挺方便的功能，临时需要执行个命令，不用开新的 shell（以及 ssh），直接按一下 Ctrl-Z，完事之后再回来，多好啊！就跟 zsh 的 Alt-q 一样方便好用呢。

于是就想还是不开 pty 了。直接子进程放新组里跑。这样 Vim 在尝试向终端输出时会收到 SIGTTOU 信号，因为它不是前台进程组。找了一下，用 tcsetpgrp 就可以把指定进程组放到前台了。然后发个 SIGCONT 让可能已经停下来了的 Vim 继续。

然后，当 Vim 收到 SIGTSTP 而停止的时候，我的程序该怎么知道呢？搜了一下，原来这种情况下也会收到 SIGCHLD 的！我以前一直以为只有子进程退出才会收到 SIGCHLD 啊……然后是一个关于 SIGCHLD 的坑，之前在 pssh 里看到过的，这次没有及时想到：不给 SIGCHLD 注册信号处理器时是收不到 SIGCHLD 的！不过诡异的是，我的这个程序有时却能够收到——在我使用 strace 跟踪它的时候……

于是，当 Vim 收到 SIGTSTP 时，把我们自己设置成前台进程组，然后给自己发一个 SIGTSTP 也停下来好了。令人意外的是，后台进程在调用 tcsetpgrp 时竟然也会收到 SIGTTOU。不过没关系，忽略掉就好了。

当用户 fg 时，就再把 Vim 设置成前台进程，并给它一个 SIGCONT 让它继续就好了。

最终的成品 vimtrace 在这里。我的 zsh 配置是这样子的：

if (( $+commands[vimtrace] )); then
  (( $+commands[strace] )) && alias strace='vimtrace strace'
  (( $+commands[ltrace] )) && alias ltrace='vimtrace ltrace'
else
  (( $+commands[strace] )) && strace () { (command strace "$@" 3>&1 1>&2 2>&3) | vim -R - }
  (( $+commands[ltrace] )) && ltrace () { (command ltrace "$@" 3>&1 1>&2 2>&3) | vim -R - }
fi

后记：

strace 有时候还是会改变进程的行为的。这种时候更适合用 sysdig。Arch 刚刚更新的 sysdig 版本已经修正了崩溃的问题了～不过 Vim 对 sysdig 的输出就不像 strace 那样有好看的语法着色了。

其实我当时用 systemtap 来看信号发送情况更方便一些。不过那个需要内核调试符号，几百M的东西，装起来累啊……

Category: Linux | Tags: linux 终端 Python zsh

6
12
2016

SIGHUP, nohup, disown 以及 expect + sudo + bash + ssh

这些东西都和终端消失的时候（比如 ssh 连接中断）有关，但是细节上又各有不同。

nohup，去 coreutils 看源码就知道，是忽略 SIGHUP 然后 exec 相应的命令。信号处理器如果被设置成忽略，那么在 exec 之后依旧是忽略（与设置成用户自定义函数的情况不一样）。man 7 signal 可以看到说明。

disown 这个，我去看 zsh 的源码了。然而只看到 zsh 把进程从它的任务列表里删掉了，根本没提 SIGHUP 的事情。后来看到这个答案才知道原来 shell 也会发 SIGHUP 信号。

当然内核也会发 SIGHUP。查阅 drivers/tty/tty_jobctrl.c 可知，内核会给 session leader 及其组发 SIGHUP 和 SIGCONT，也会给前台进程组发，但是不会给后台进程组发 SIGHUP。那个是 shell 发的，所以 disown 之后后台进程就不会被 SIGHUP 干掉了。

所以，前台进程组如果没有被信号杀掉的话，会收到两次 SIGHUP 信号，一次 SIGCONT 信号。而后台进程组只会收到一次 SIGHUP。disown 过的不会收到任何信号。当然那些没死的进程，如果去读写终端，还是会得到 EIO 错误，写的时候还会收到 SIGPIPE 信号。

strace 可以观察到这些过程。

最后一个，出了问题。通过 expect 调用 sudo，然后登录服务器。终端断开时，expect 被 SIGHUP 杀死。sudo 会把用户发的信号传给它的子进程，但是内核发的不传。而 zsh 给 sudo 发信号时会因为权限原因而发送失败。于是后边的 bash 和 ssh 都会收不到 SIGHUP 信号。但是终端消失它们是能感知到的，所以这个出问题的进程树才这么深嘛。ssh 发现终端消失了，它干了什么呢？当然是通知对端终端没啦，然后等回复。对端 sshd 收到消息之后说，「哦哦，我去把 /dev/ptmx 给关掉。」于是 sshd 关掉了三个 /dev/ptmx 中的其中一个。所以这个 sshd 下的 bash 进程并不会得到 EIO 错误，还继续跑着。于是 sshd 还继续等着它跑完。于是这边的 ssh 还在等对端的 sshd 回复。于是这棵进程树就 hang 在这里了……

结论：还是 systemd 好啊，会话关闭时直接干掉这个会话启动的所有进程。需要在会话结束之后依旧运行的，自己用 systemd-run --user --scope xxx 启动就好。留下这些 sudo、ssh、bash 的还好，占用的资源不多。supervisorctl 这种的就囧了，死循环地读 stdin 又读不到东西，浪费一颗 CPU。

Category: Linux | Tags: linux 终端

5
29
2016

配置 Postfix 通过外部 SMTP 服务器发邮件

程序要发邮件。

我不想自己去连外部 SMTP 服务器，因为我懒得自己去处理各种错误。我们服务器上很多程序用的是 heirloom mailx 软件的 mail 命令。结果是有些服务器上有好几个甚至几十个 mail 进程卡在那里了。还有不知道通过什么东西发邮件的，偶尔会有邮件没发出来，发出来了的还因为在一个字符的多个字节之间换行再编码导致 mutt 和 Android 的 GMail 程序显示为乱码的。

所以我要用 Postfix，让它来处理这些杂事。之前只把 Postfix 用作普通的 SMTP 服务器过。然而现在目标邮寄地址是腾讯企业邮箱，对由子域名发出的邮件很不友好，老是扔垃圾箱里，连加白名单都没用……于是搜了一下，Postfix 是可以作为客户端登录到 SMTP 服务器来发信的。不过资料比较少，好不容易配置好了，自然要记录一下。

要登录腾讯企业邮箱发信，main.cf 里写上：

relayhost = [smtp.exmail.qq.com]:587

smtp_sasl_auth_enable = yes
smtp_sasl_security_options = noanonymous
smtp_sasl_password_maps = hash:/etc/postfix/sasl_passwd
smtp_use_tls = yes
smtp_tls_CAfile = /etc/ssl/certs/ca-certificates.crt
smtp_sender_dependent_authentication = yes
smtp_generic_maps = hash:/etc/postfix/generic

/etc/postfix/sasl_passwd 里边写用户名和密码，比如 user@example.com 用户的密码是「password」，就这么写：

[smtp.exmail.qq.com]:587 user@example.com:password

/etc/postfix/generic 里配置信封上的发件人（MAIL FROM 命令）的地址重写，不然腾讯不收：

@hostname user@example.com

hostname 就是 Postfix 里那个 myhostname，默认是机器的主机名。这句配置的意思是，本来发件人地址是这个主机名的，全部改写成 user@example.com 这个。

然后生存 hash 数据库，并更改权限（更好的做法当然是创建的时候就弄好权限）：

postmap /etc/postfix/sasl_passwd
postmap /etc/postfix/generic
chmod 600 /etc/postfix/sasl_passwd*

就绪，启动或者重新加载 Postfix 就可以了：

systemctl reload postfix

Category: Linux | Tags: 电子邮件 Postfix

5
21
2016

当 SSD 坏掉之后

某天，我注意到系统日志中有如下报错：

ata2.00: exception Emask 0x0 SAct 0x80 SErr 0x0 action 0x0
ata2.00: irq_stat 0x40000008
ata2.00: failed command: READ FPDMA QUEUED
ata2.00: cmd 60/18:38:64:ad:96/00:00:00:00:00/40 tag 7 ncq 12288 in
         res 41/40:00:64:ad:96/00:00:00:00:00/00 Emask 0x409 (media error) <F>
ata2.00: status: { DRDY ERR }
ata2.00: error: { UNC }
ata2.00: configured for UDMA/133
sd 1:0:0:0: [sdb] tag#7 UNKNOWN(0x2003) Result: hostbyte=0x00 driverbyte=0x08
sd 1:0:0:0: [sdb] tag#7 Sense Key : 0x3 [current] [descriptor] 
sd 1:0:0:0: [sdb] tag#7 ASC=0x11 ASCQ=0x4 
sd 1:0:0:0: [sdb] tag#7 CDB: opcode=0x28 28 00 00 96 ad 64 00 00 18 00
blk_update_request: I/O error, dev sdb, sector 9874788
bcache: bch_count_io_errors() sdb1: IO error on reading dirty data from cache, recovering
ata2: EH complete

啊，看来我的 SSD 要坏掉了么？！拿 bcache-status 看了一下状态，已经500多个报错了，但是我并没有遇到什么问题。看了一下 SSD 的 SMART 信息，也是500多个报错。这种报错出现已经有几天了，但是似乎影响并不大？SMART 报告也说「状况正常」。那就等有时间再处理好了，先把 bcache 缓存策略从「writeback」改成「writethrough」好了。我当时是这么想的。

出事的 SSD 是笔记本自带的，16G，被我用作缓存了。使用的是 bcache，一年之前我写文章讲过的。没想到刚刚一年，就开始出问题了。

过了一两天之后。我正上班中，同步 MediaWiki 数据时发现自己的机器又连不上了。我起初以为是网络问题，因为我记得很清楚我的机器是开着的。但是过了一会儿它还是不能访问。我 ping 了一下，却发现是通的！登陆到我作为路由器的树莓派上却发现，网络是正常的。能 ping 通笔记本，但是从树莓派上也 ssh 不了，访问 nginx 也没回应。所以笔记本还在线，但是系统出问题了。奇怪的是，访问另一端口上我用 Tornado 写的 Web 程序时却是正常的。

终于等到了下班。回到家里之后就听见笔记本风扇呼呼地响着。赶紧打开查看。htop 显示 journald 正在使用 CPU。于是去看 journald 日志，心里顿时凉了半截：日志只记录到上午，但满是上边那样的 SSD 报错。进一步的检查发现，/ 分区已经被挂载为只读，syslog-ng 日志比 journald 日志记录了更多的报错。火狐已经不知道什么时候挂掉了，并且启动不了。sudo 还是好的，但是运行 zsh 时会段错误。运行 bash 的话，会报一点错，可以看到有些文件已经变成无意义的数据了。bash 能启动，但是很奇怪的是，输入不了字符 e……想起还装了 dash，于是用这个连最基本的补全都没有的 shell，配合还没有挂掉的连着 VPS 的 mosh 上的 IRC 上网友们的帮助，尝试禁用 SSD 缓存。

结果是失败了。关于 bcache 有些资料与我看到的情况并不一致。重启会报一些错，然后我进入了 initramfs 里的 shell，尝试禁用 SSD，依旧失败中，脏数据写不回去，所以禁用不了缓存……不过看到了缓存中脏数据只有几百K。当然单位是什么我就不知道了……

放弃。又一天，我改从救援系统进入。记得有个工具能把普通分区转成 bcache。手机上网找到了，blocks。但是它并不能把 bcache 转回来。好在是开源项目，我读了一下代码，结合别人的说法，结论是：把普通分区转为 bcache，只要把分区缩小，在起始处空出一点空间，然后写入 bcache 的超级块就可以了。于是反过来，只要跳过 bcache 的超级块来读，就可以读到原来的分区数据了。

但是，bcache 超级块有多大呢？不知道。不过之前看到过一个扫数据的脚本，用类似的办法找一下分区数据的位置好了：

for i in {1..20}; do dd if=/dev/sda2 skip=$i | file -; done

file 显示在第8块的地方发现了「LUKS encrypted file」。这就是我要找的文件系统了！

为保险起见，先读读看。使用 losetup 把 /dev/sda2 映射成只读的 loop 设备，但是跳过开头的 8192 字节（dd 的块是 512 字节一个）。然后用 cryptsetup 解密。解密成功了。只读挂载解密之后的 ext4 文件系统。挂载成功了。看了一下内核日志，没有报错，没有警告。chroot 进去，正常，没有段错误，配置文件没有变成无意义的乱码。一切进行得好顺利！损坏程度比我以为的要轻不少呢！

为了确认损坏情况，我进行了一次模拟备份，也就是 rsync 的「--dry-run」选项。这样与最近的一次备份作比较，看看差异。结果很乐观，rsync 只报了十来个 I/O 错误。不过这也说明文件系统还是有问题的。

又一天。开始恢复系统了。还是从救援系统进入。进入 gdisk，删除原来的 sda2 分区，新建一个小了 8192 字节的分区。经验表明这样子删掉再重建分区表是没有问题的。也确实没出什么问题。不带 bcache 的文件系统出来了。解密之，然后使用 fsck 修复。修复过程中，fsck 问了我一大堆是不是要修复的问题。修复完毕之后，更改内核选项以便适应新的分区表，重启。

一切正常。不过根据之前 rsync 和修复过程中提到的文件名，去看了一下那些文件。都是最近更新系统时的一些 Python 文件。有一些文件消失了，另一些文件的权限和类型变得很奇怪。删掉，重装安装对应的软件包。完事了～不过没有了 SSD 缓存，能够感觉到有些操作会慢不少。

这 SSD 也真容易坏啊。刚刚一年呢。而且坏的过程很快，预警期只有几天。现在 SMART 报告已经出现过1000多个错误了，但整体评估还是「磁盘状况正常」……

好在我用的都是自由软件，虽然可能找遍整个互联网都没有个说法，但是还有实现它们的源码可以阅读，可以自己去思考解决方案。当然啦，就算这个 bcache 完全坏掉了，我也不需要太惊慌，因为我有备份嘛，更麻烦，但最多只损失几天的数据，不会突然之间什么都没有了。

Category: Linux | Tags: linux 数据恢复 bcache SSD

4
29
2016

一个系统，两套网络

创建并配置一个新的网络命名空间

公司 VPN 用的网段是 192.168.1.0/24，而我家里的网络，就像大多数人的一样，也是 192.168.1.0/24。网段冲突了。当然啦，隔离得相当好的 lxc 可以解决这个问题。可是它隔离得太好了，我可不想再多维护一套环境。那么，就只隔离网络好了！

正好之前看到 iproute2 套件可以管理网络命名空间。那么，就用它啦。

首先，创建一个名为 vpn 的网络命名空间：

ip netns add vpn

现在如果进去看的话，会发现里边只有一个孤零零的 lo 网络接口，所以里边是一片与世隔绝的黑暗。我没有其它的网络接口给它用。桥接当然是可以尝试的，只是需要更改已有的网络配置。所以还是用另外的方案吧。弄根网线来，把里边和外边连接起来好了。

创建一对 veth 接口。这就是我们的「网线」～

ip link add vpn0 type veth peer name vpn1

一端留外边，另一端移到 vpn 里边去：

ip link set vpn1 netns vpn

接好网线的两端：

ip link set vpn0 up
ip netns exec vpn ip link set vpn1 up

好了，现在两个网络之间可以通信了～当然，只是链路层。为了使用 TCP/IP，我们得分配 IP 地址。在外边的这个就不需要 IP 地址了，因为我要把它接到一个网桥上，网桥自己有 IP 的。

brctl addif br0 vpn0

这里 br0 是我已有的网桥（给 lxc 用的那个）。如果你没有的话，就自己按以下方法弄一个。我用的是 bridge-utils 里的 brctl 命令。iproute2 也可以做的。

brctl addbr br0
ifconfig br0 192.168.57.1
iptables -t nat -A POSTROUTING -s 192.168.57.1/24 -j MASQUERADE

最后的 iptables 命令是做 NAT 啦。当然内核的 IPv4 转发功能还要开启的。

vpn0 这端弄好了，再给 vpn1 分配 IP，并设置相关路由表项：

ip netns exec vpn ip address add dev vpn1 192.168.57.101/24
ip netns exec vpn ip route add default via 192.168.57.1

现在就可以在里边连 VPN 啦～

ip netns exec vpn openvpn ...

当然也可以去里边开个 zsh 用

ip netns exec vpn zsh

不过要注意如果跑 GUI，或者连接 D-Bus 的话，需要手动把相关环境变量移进去。虽然是独立的网络命名空间，但是因为共享了文件系统，所以虽然看不到在监听的 UNIX 套接字，但是连起来还是没有问题的。X 和 D-Bus 都可以良好工作的。

export DISPLAY=:0 LANG=zh_CN.UTF-8 LANGUAGE=zh_CN:zh_TW
export GTK_IM_MODULE=fcitx QT_IM_MODULE=fcitx XMODIFIERS=@im=fcitx
export DBUS_SESSION_BUS_ADDRESS=unix:path=/run/user/1000/bus
# 如果在 tmux 里的话
export TMUX=1

再加上 mount 命名空间吧

我这里在里边得用 IP 地址，因为我的 DNS 是 127.0.0.1，在里边当然是用不了的。怎么办呢？我不想改 DNS 服务器地址，因为里外的文件系统是共享的。那就再加上 mount 命名空间吧，这样就可以 bind mount 一个修改过的文件到 /etc/resolv.conf 上了。

其实呢，ip netns 是通过把网络命名空间（/proc/<pid>/ns/net）bind mount 到文件来实现命名空间的持久化的（不然使用这个命名空间的进程都退出，该命名空间就销毁了）。其文件位于 /run/netns 下。对于 mount 命名空间我们可以手工这么做：

mkdir -p /var/run/ns
mount --bind /var/run/ns /var/run/ns
# 命名空间只能 bind mount 到 private 挂载的文件系统上
mount --make-private /var/run/ns
# 随意找个普通文件就行。一般是用空文件；我这样可以省一个文件～
cp /etc/resolv.conf /var/run/ns

然后用 unshare 建立新的 mount 命名空间，并进入之前的 vpn 网络命名空间（当然用 nsenter 进入也是可以的）：

unshare --mount=/var/run/ns/resolv.conf ip netns exec vpn zsh

创建了之后就可以用 nsenter 进去玩儿了：

nsenter --mount=/var/run/ns/resolv.conf --net=/var/run/netns/vpn zsh

可以在里边各种 bind mount，不会影响外边的哦：

# 在新的命名空间里边
mount --bind /var/run/ns/resolv.conf /etc/resolv.conf
vim /etc/resolv.conf

组合更多的命名空间

当然也可以组合更多种的命名空间的。我还试过 pid 命名空间，不过 pid 命名空间比较特殊：它在 fork 后才生效，当 init 进程（pid=1 的进程）退出之后所有位于此 pid 命名空间的进程都会被杀死，并且再也进不去了。所以不是很好玩的啦。

创建与进入的命令如下：

unshare --mount-proc -f --pid=/var/run/ns/pid --mount=/var/run/ns/resolv.conf nsenter --net=/var/run/netns/vpn su - lilydjwg
# 进入时用 -t 选项，或者重新 bind mount 文件（不然新进程会在原 pid 命名空间）
nsenter -t 9416 --mount=/var/run/mountns/resolv.conf --net=/var/run/netns/vpn --pid su - lilydjwg

后记

除了可能偶尔连接公司 VPN 会用到这个技术之外，我又给其找到了一个更好的使用场合：Wine QQ！于是本地的 nginx 日志里终于不会再有 /srv/http/cgi/reccom 找不到的提示了，CGI 服务也不会被不必要地启动了。

2016年5月13日更新：把自用的脚本放在 Gist 上了。

Category: Linux | Tags: linux 网络 netns

1
10
2016

配置 spamassassin 来过滤垃圾邮件

虽然 GMail 的垃圾邮件过滤功能十分强大，误判率很低。但是我另有使用网易的邮件服务的域名邮箱，屡次教它哪些是垃圾邮件却依然不奏效。于是在本地配置一下 spamassassin 好了。

安装。在 Arch Linux 上这样子：

sudo pacman -S spamassassin
sudo sa-update

教学。之前就计划用 spamassassin，所以预先收集了不少垃圾邮件样本。喂给 sa-learn 学习一下：

sa-learn --spam --mbox < ~/.Mail/spam

过滤。编辑 ~/.procmailrc 配置文件，让 procmail 将邮件交给 spamassassin 检查，如果判定为垃圾邮件就放到特定的邮箱中：

:0fw: spamassassin.lock
* < 256000
| /usr/bin/vendor_perl/spamassassin

:0:
* ^X-Spam-Status: Yes
autospam

完成。其实挺简单的。

Category: Linux | Tags: 反广告电子邮件 spamassassin

« 上一页 1 2 3 4 5 6 7 8 9 10 11 … 16 17 下一页 »

依云's Blog

Happy coding, happy living!

中键的功能

利用 systemd 的 watchdog 功能重启卡住的服务

诡异多多的 bash

Linux 下的 Wi-Fi 分享

Linux 作业控制实践

SIGHUP, nohup, disown 以及 expect + sudo + bash + ssh

配置 Postfix 通过外部 SMTP 服务器发邮件

当 SSD 坏掉之后

一个系统，两套网络

创建并配置一个新的网络命名空间

再加上 mount 命名空间吧

组合更多的命名空间

后记

配置 spamassassin 来过滤垃圾邮件

随机文章

最新评论

最新留言

链接

计数器

存档

功能

RSS

权利声明

Happy coding, happy living!

创建并配置一个新的网络命名空间

再加上 mount 命名空间吧

组合更多的命名空间

后记

随机文章

标签云

最新评论

最新留言

链接

计数器

存档

功能

RSS

权利声明