依云's Blog

5
7
2020

Intel GVT-g 初体验

准备 GVT-g

把 kvmgt vfio-iommu-type1 vfio-mdev 这仨加到 /etc/mkinitcpio.conf 的 MODULES 数组里去。mkinitcpio -P 重新生成一下 initramfs。

添加内核参数 i915.enable_gvt=1。比如是 grub 引导就去改 /etc/default/grub 里的 GRUB_CMDLINE_LINUX 变量，然后 grub-mkconfig ...。

去把 /etc/systemd/system.conf 里的 DefaultLimitMEMLOCK 给改了。比如 DefaultLimitMEMLOCK=65536:1073741824。

重启。

这个时候应该已经有 /sys/devices/pciXXXX:XX/XXXX:XXXX.X/mdev_supported_types 这个目录了。里边有好几个选项呢。选择一下合适的（查看 description 文件），然后往里边的 create 文件里写一个 UUID 就创建了。

启动 KVM 虚拟机

呃，如果你还没有磁盘镜像就自己 qemu-img 创建一个，然后装机。如果你有别的虚拟机的，也可以用 qemu-img 去转格式。

另外准备一下网络。我早就有个网桥了，所以直接用它了。在 /etc/qemu/bridge.conf 里写一句 allow br0 不然不给用的，毕竟我是普通用户权限而网络接口是要 root 权限操作的，得明确允许一下。

我尽可能地使用了 virtio，据说性能好（VirtualBox 也支持一部分了呢）。如果用已有的虚拟机系统但以前没用过 virtio 的话，记得用 fallback 那个 initramfs 启动，然后进系统之后重新生成一个。

我给分配了四个逻辑 CPU 核，4G 内存。VGA 要关掉，不然两个显卡用起来麻烦。为了避免部分内容显示到别处去（如果关了 VGA 的话就看不到，否则能在默认的那个上看到），要加上 ramfb=on,driver=vfio-pci-nohotplug 选项。

声音当然是要的。添加个 PulseAudio 后端，一张 HDA 声卡。我不懂声卡型号所以找了个顺眼的，能用就好。

合起来是这样子的（那两个省略号，一个是磁盘镜像路径，一个是创建 vGPU 用的 UUID）：

#!/bin/bash -e

ulimit -l 1024000

exec qemu-system-x86_64 -enable-kvm \
       -name "ArchKDE" \
       -cpu host -smp 4 \
       -m 4G \
       -drive file=/.../ArchLinuxKDE.qcow2,if=virtio \
       -netdev bridge,id=eth0,br=br0 \
       -device virtio-net,netdev=eth0 \
       -device vfio-pci,sysfsdev=/sys/bus/mdev/devices/...,display=on,x-igd-opregion=on,ramfb=on,driver=vfio-pci-nohotplug \
       -vga none \
       -display gtk,gl=on \
       -audiodev pa,id=pa0,server=/run/user/$UID/pulse/native -device intel-hda -device hda-output,audiodev=pa0 \
       "$@"

如果你使用 GVT-g 显卡的时候整个系统都卡卡卡的话，去看一下宿主的内核日志，是不是有 vfio_pin_page_external: Task qemu-system-x86 (257364) RLIMIT_MEMLOCK (104857600) exceeded 这样的提示，然后去把 RLIMIT_MEMLOCK 给调大，大到它不再报这个错为止。我最后给了1000M才终于不报错地把 KDE 给跑起来了（默认是64K）。

当然如果你没有 GVT-g 支持的话，去掉那行配置，然后 -vga virtio 也能用。

参考链接

Category: Linux | Tags: 虚拟机 linux kvm

1
27
2020

自制大上 Paperlike HD「驱动」

大上 Paperlike HD 使用有一段时间了，然而有一点我对其非常不满：它需要以 root 权限运行一个图形界面的程序。具体麻烦的地方是：

图形界面的程序不方便使用 systemd 管理，那个窗口我得找个地方安放，并且在登出图形界面或者 Xorg 出问题时会随之关闭
即使持续运行此程序，当几秒内不使用键盘或者鼠标的时候屏幕就会休眠。这导致我无法将此屏幕用于关注程序日志或者聊天工具的新消息。
它持续不断地执行多个线程的任务（读取键盘事件、读取鼠标事件、通过 ioctl 与设备通讯），耗费了不少 CPU
在屏幕尚未连接时，它的运行会导致内核不断输出日志「drm_dp_i2c_do_msg: 2 callbacks suppressed」

我曾多次想自己实现一个符合自己使用习惯的方案。

首先当然是 strace 上去啦。这会得到许多类似这样的消息：

ioctl(9</dev/i2c-1<char 89:1>>, _IOC(_IOC_NONE, 0x7, 0x7, 0), 0x7f47d8805b70) = 1
nanosleep({tv_sec=0, tv_nsec=100000000}, NULL) = 0
ioctl(9</dev/i2c-1<char 89:1>>, _IOC(_IOC_NONE, 0x7, 0x7, 0), 0x7f47d8805be0) = 1
nanosleep({tv_sec=0, tv_nsec=200000000},  <unfinished ...>

可以看到它在对 /dev/i2c-1 这个文件进行操作，但是具体内容是个指针，strace 看不到。

我尝试过使用大名鼎鼎的 IDA 的免费版本来分析其具体行为。但我对 IDA 并不熟悉，并且 IDA 只支持 Intel 语法的汇编，而我见的 AT&T 语法的比较多，Intel 的很多表示法我不太能看懂。

后来根据 ioctl 的请求参数找到这个文档，里边有这些 i2c 消息的结构体定义。于是想着先把 ioctl 的数据弄出来看看。一开始尝试用 gdb 去看那个地址的数据，但想到数据是变动的，再加上 gdb 查看太累了，就想起了通过 LD_PRELOAD 去 hook ioctl。

所以又要写 C 了？并没有呢！C 写起来那么不舒服，还是用 Rust 吧～然后搜了一下，还真有现成的用于写 LD_PRELOAD 库的 crate，比如我用的 redhook。不用自己去 dlopen，不用在各处写很多错误处理代码，很容易就写好了。代码链接。

拿到了 ioctl 里用的消息，我不用理会它具体是什么意思，也没办法去猜测，自然是把它按大上提供的程序那个样子给发过去了。于是又一个 Rust 程序出来了。

一开始写的时候不小心往 unsafe 代码块里传了个悬空的指针，导致程序不工作，调试了好久，甚至我都把完整的整个流程给复刻了一遍。这要是用 C 写文本解析的逻辑可头疼了，不过 Rust 写起来就跟 Python 差不多的了～

至于那个 bug，是 Rust 语句中的临时对象（此例中是包含一个对象的数组）会在语句结束之后就释放导致的。有点坑，但也没什么好的办法。

程序运行起来之后就会保持 Paperlike HD 显示器可用，不会报错让装驱动，也不会过几秒就休眠了。我大幅降低了消息发送的频率（由差不多每秒三次改成了三秒才一次），再加上不需要读取键鼠输入，所以 CPU 占用也会大幅减少。另外内核也不会再打印「drm_dp_i2c_do_msg: 2 callbacks suppressed」的消息了，大概是因为消息频率降低了？重新连接显示器之后，和大上原版程序一样有概率出现显示器亮蓝灯、屏幕不工作的情况。拔插一下电源可解。

当然啦，如果有人要用这个程序的话，记得先确认一下你的 i2c 设备文件路径（去 lsof 大上原版程序就行）。另外，使用此程序后果自负，由此造成的任何设备损坏或者其它损失，我都不负责任的哦～

Category: 硬件 | Tags: 显示器 linux Rust E-ink 硬件

11
26
2019

Python 3.8 升级记录

Python 3.8 发布有好多天了，Arch Linux 也早就重新打包了一千多个包（感谢辛勤的肥猫猫），隔天就从 [staging] 进入 [testing] 了，四天之后进入正式仓库（[extra] 和 [community]）。

Python 3.8 进入官方仓库的次日，我本地进行了更新。之所以要等一天，自然是等 [archlinuxcn] 的更新啦。然后那些需要人工干预而又暂时没人理的我本地重新打包了。使用 pacman -Qo /usr/lib/python3.7/site-packages 查询尚未更新的软件包，然后对着对应的 PKGBUILD 一顿改（基本上也就是 pkgrel 加 0.1 而已），makepkg -si 就好了。

但是这样还没完事哦。

先 sudo updatedb 更新一下 mlocate 的数据库。然后 locate -be python3.7 | grep -v /var/lib/lxc 找到一些残留的文件，主要是 ~/.local/lib 下的，以及散落在管理之外的 venv 里的。~/.local/lib 下的都是我自己的项目，删掉然后重新去项目里 python setup.py develop --user 就好了。venv 的话，直接删掉吧……

然后是 locate -be python-37 | grep -v /var/lib/lxc | grep -v /usr/lib/python3.7/site-packages。这个是为了查 Python 3.7 的 pyc 文件，所以这次也排除了 Python 3.7 的 site-packages，避免尚未更新的 Python 包的干扰（有些暂时用不到的包我就懒得自己 makepkg 了），等更新完之后整个目录删掉。有些软件包（比如 gdb-common）没有使用标准的 Python 安装流程（比如因为并不是标准的 Python 库），打包者（比如著名的 Allan McRae）没有或者拒绝在打包时编译 pyc 文件，造成 Python 自行创建不被管理的 pyc 文件，软件包卸载或者 Python 升级后就残留下来了。

确认没有问题之后（比如有些软件可能自带了个旧版本的 Python，或者有些并不是 pyc 的文件也包含这个字符串），执行 locate -be python-37 | grep -v /var/lib/lxc | grep -v /usr/lib/python3.7/site-packages | sudo xargs rm -v 删除这些文件。当然如果有需要保留的文件自行从文件列表中删掉先。

pyc 清理之后，接下来清理一下空的 __pycache__ 目录啦。locate -be __pycache__ | sudo xargs rmdir -v 2>/dev/null 就可以了，非空目录不会被删掉的。

哦对了，我现在在用 mypy 了，所以还要 locate -we .mypy_cache/3.7 一下。

我之所以现在记录这事儿，「现在」的原因是，我要在另一个系统上再测试一遍再发布出来，「记录」的原因是，下一次我就不用想要执行哪些命令了。

Category: Linux | Tags: linux python Arch Linux

10
28
2019

Poker II 键盘调教记

Poker II 是一款可编程的61键机械键盘，是最小的那种，没有 F1-F12 那一行键。跟 HHKB 有些像。这是我第一次使用这么小的键盘，以前都用的84键的。选择它的原因是，更加小巧，没有旁边的光标移动键，使得打字的时候几乎不需要把手挪来挪去的。编程功能似乎也挺有意思的。我手上这把是红轴的，感觉手感也挺好，虽然没有了青轴那清脆的叫声。照片我就不放啦，网上能搜到的。

研究完说明书，发现它的编程功能并没有想像中的那么好。主要缺点如下：

非默认层会一直亮着个灯，而默认层又不能编程。
只能对非组合键，以及没有预设功能的 Fn 组合键编程。所以额外的 Pn 键很残废。
编程结果无法导入导出。所以哪天不小心重置了键盘，这将导致重复而无趣的劳动。

不过也能凑合着用了。最后我的设置是这样的：

不再使用 xmodmap 来交换 Esc 和 Caps Lock。笔记本键盘改用 hwdb，Poker II 使用内建编程功能。于是我可以在别处（比如手机、BIOS、Win10）使用这把键盘而不感觉别扭与小心翼翼。xmodmap 依旧用来把右 Alt 映射为 Multi（Compose）键，用来输入特殊字符，因为我不知道这个键怎么用 hwdb 映射。哦还要在 /etc/vconsole.conf 里去掉之前给 tty 虚拟终端设置的交换 Caps Lock 和 Esc 的 keymap。

红、绿、蓝三个编程层。红层没什么用，暂时留作测试。绿层作为打字用布局，方向键使用 Fn 组合键完成，Esc 位放 `~。蓝层作为看视频的布局，方向键使用右下角的四个键完成，无处安放的 Pn 暂时放 Esc 位。其余共有映射为：

Caps Lock 位放 Esc。
交换 Fn 和右 Alt 键。这样 Fn 键好按一点，反正右 Alt 很少用到。
映射两组 Ctrl-PgUp/PgDn 分别到 Fn-Q/E 和 Fn-O/L。这快捷键非常常用，可以在火狐和 Telegram 切换标签页。

Poker II 编程时有个「编程延迟」设置，我一直没搞明白它要怎么用，也导致我的映射一直有问题，按一次出一到两次。直到后来找到这篇文章，才明白它不是个设置，而是个事件，按下它即导致出键码时延迟指定的时间。

另外我没能在 Poker II 上按出 SysRq 来，不知道是怎么回事。

hwdb 的配置方法来自 ArchWiki Map scancodes to keycodes 页面。我的配置如下：

evdev:atkbd:dmi:*
 KEYBOARD_KEY_01=capslock   # esc
 KEYBOARD_KEY_3a=esc        # capslock
 KEYBOARD_KEY_b7=rightmeta  # prtsc
 KEYBOARD_KEY_c5=print      # pause (Fn+P)

把配置放到 /etc/udev/hwdb.d 下的 .hwdb 后缀文件中，然后执行

sudo systemd-hwdb update
sudo udevadm trigger

就好了。

用了几天了。除了 LED 灯老亮着有些刺眼外，一切安好。也终于把 Caps Lock 的设置方法搬到更底层了。

Category: 硬件 | Tags: 硬件 linux 键盘

9
3
2019

NVIDIA PRIME 配置笔记

这是由 NVIDIA 官方提供的新的双显卡配置方案（官方文档），需要最新的驱动及 Xorg 支持。其中 nvidia 驱动已经位于 Arch Linux 官方仓库中（版本号 435.21）。~~相关 Xorg 补丁还在 git 上，并没有新版本放出，所以需要自行编译包含补丁的版本。这里有现成的 PKGBUILD。我打包好的版本也提供下载。~~

2019年11月25日更新：xorg-server 1.20.6 已经进入 Arch Linux 官方仓库，包含需要的补丁了。

2020年02月14日更新：现在也可以通过安装 nvidia-prime 直接配置好，就不用搞下边那些配置了。记得安装 nvidia（或者 nvidia-dkms 等）驱动包哦～

我的硬件是 ThinkPad T470p，Intel Corporation HD Graphics 630 核显和 GeForce 940MX 独显。核显的特点是：省电、支持视频编解码加速。独显的特点是：Minecraft 能开光影，FPS 也要高一点。用来跑火狐的话可以正确渲染 FishGL。

配置方法如下。

首先把 bbswitch 啥的都卸载了吧。虽然注意点不卸载也没事，但是毕竟装着没意义还容易出问题。然后看看 /etc/modprobe.d 下有没有黑名单 nvidia 的驱动，给它取消了。我有一个 options nvidia_drm modeset=1 的配置，不知道有没有影响。

Xorg 这边要加一段配置。就保存在 /etc/X11/xorg.conf.d/nvidia.conf 好了。

Section "ServerLayout"
  Identifier "layout"
  Screen 0 "iGPU"
  Option "AllowNVIDIAGPUScreens"
EndSection

Section "Device"
  Identifier "iGPU"
  Driver "modesetting"
  BusID "PCI:0:2:0"
EndSection

Section "Screen"
  Identifier "iGPU"
  Device "iGPU"
EndSection

Section "Device"
  Identifier "dGPU"
  Driver "nvidia"
EndSection

那个 BusID 的值要自己看着 lspci | grep VGA 来改。

如果你之前是用N卡跑 Xorg 的，需要把 xrandr --setprovideroutputsource modesetting NVIDIA-0 之类的设置去掉。

然后重启系统就可以了。请做好通过 tty 或者 ssh 修复配置的准备。

默认情况下，Xorg 及其上的程序运行于i卡。使用 __NV_PRIME_RENDER_OFFLOAD=1 __GLX_VENDOR_LIBRARY_NAME=nvidia 环境变量来指定使用N卡。为了方便起见，做一个别名好了：

alias nvrun="__NV_PRIME_RENDER_OFFLOAD=1 __GLX_VENDOR_LIBRARY_NAME=nvidia"

然后就可以 nvrun minecraft-launcher 啦～

对了，要注意一下的是，这两个环境变量对视频硬解也是有效的。比如我如果给 mpv 使用这两个环境变量的话，mpv 就会黑屏（我的N卡不支持硬解……

Category: Linux | Tags: linux nvidia 显卡驱动

4
9
2019

T470p 使用N卡运行 Xorg

这么做的原因是：这样 minecraft 帧率高，不卡顿。

intel 显卡：帧率低，好像是20fps左右吧。开不了光影
optirun：坏了
primusrun：帧率高了一些，不多
nvidia-xrun：丝般顺滑，只是切换回我之前跑程序的 Xorg 时，发现我的 Awesome 已经没了。一开始是黑屏，经过配置之后倒是能得到 LightDM 的登录画图。另外 nvidia-xrun 无法卸载模块，因为被 Xorg 使用了，需要停止 lightdm。

那么，既然 nvidia-xrun 效率不错，我要是把整个桌面都搬上去呢？经过了一些折腾之后，取得了不错的结果。一个意料之外的好处是，播放视频、网页浏览器里滚动页面时常出现的画面撕裂好了～

当然这样做会费电，降低续航时间。不过既然是 T470p，一开始我就没打算整天带着它到处跑，所以无所谓啦。需要的时候再切回去好了。有个叫 optimus-manager 的软件，看介绍是帮助这么切换的。不过我对一切自动化程度太高的软件都心存疑虑，不确定它到底干了什么，会不会和我其他的配置相冲突。所以以后再看看啦。

最终的配置方案是这样的——

首先，把 bumblebeed.service 关掉并禁用。

然后，Xorg 配置一份，放 /etc/X11/xorg.conf.d/ 下就好。这份配置来自于惠狐的《Archlinux 下 Intel 和 NVIDIA 双显卡 de 折腾笔记》一文。

Section "OutputClass"
    Identifier "intel"
    MatchDriver "i915"
    Driver "modesetting"
EndSection

Section "OutputClass"
    Identifier "nvidia"
    MatchDriver "nvidia-drm"
    Driver "nvidia"
    Option "AllowEmptyInitialConfiguration"
    Option "PrimaryGPU" "yes"
    ModulePath "/usr/lib/nvidia/xorg"
    ModulePath "/usr/lib/xorg/modules"
EndSection

lightdm.conf 里在 [Seat:*] 里加一个 hook 配置，否则会黑屏的：

display-setup-script=/usr/local/bin/lightdm-setup

这个脚本内容如下：

#!/bin/bash -e

xrandr --setprovideroutputsource modesetting NVIDIA-0 || exit 0
xrandr --auto

写了一个 systemd service，用来启用 N 卡。因为默认它是关的。

[Unit]
Description=Switch On nvidia card
ConditionPathExists=/proc/acpi/bbswitch
Before=display-manager.service

[Service]
Type=oneshot
ExecStart=/bin/sh -c "echo ON > /proc/acpi/bbswitch"

[Install]
WantedBy=graphical.target

我之前在 ~/.xprofile 配置了视频的硬件加速，现在得删掉。GM108M [GeForce 940MX] 这个显卡的视频加速没法用的。

设置内核模块的选项 options nvidia_drm modeset=1，不然 xrandr --scale 时结果会不对。

暂时就这些了。

2019年07月20日更新：我又换回 Intel 显卡了。虽然这样性能差一点，滚动、视频时画面有点撕裂，外接屏幕中鼠标会闪，但是它稳定可靠啊！Nvidia 的驱动实在是崩得太闹心了（而且我那卡不支持视频硬解）。

2019年09月03日更新：我用上了 NVIDIA 新的 PRIME 方案，效果很好～

Category: Linux | Tags: linux 硬件显卡驱动

4
4
2019

系统在解析哪些域名呢？

最近用 Rust 写了个叫 capture-dns 的小程序，实时显示 DNS 查询结果的。配合 ipmarkup 的效果是这样的：

>>> sudo capture-dns lo | ipmarkup
[sudo] lilydjwg 的密码：
github.com -> 52.74.223.119(新加坡Amazon数据中心)
github.com -> 13.229.188.59(新加坡Amazon数据中心)
github.com -> 13.250.177.223(新加坡Amazon数据中心)
live.github.com -> 192.30.253.125(美国弗吉尼亚州阿什本GitHub)
live.github.com -> 192.30.253.124(美国弗吉尼亚州阿什本GitHub)
collector.githubapp.com -> 34.193.248.191(美国弗吉尼亚州阿什本Amazon数据中心)
collector.githubapp.com -> 52.20.29.9(美国弗吉尼亚州阿什本Amazon数据中心)
collector.githubapp.com -> 34.197.57.23(美国弗吉尼亚州阿什本Amazon数据中心)
api.github.com -> 13.250.94.254(美国Amazon数据中心)
api.github.com -> 13.250.168.23(美国Amazon数据中心)
api.github.com -> 54.169.195.247(新加坡Amazon数据中心)
ocsp.digicert.com -> 117.18.237.29(澳大利亚美国MCI通信服务有限公司(韦里孙商业Verizon Business)EdgeCast亚太网络CDN节点)

可以看到本地的软件们都在查询哪些域名，得到的 IP 又是什么。抓取的是应答，所以没得到 IP 结果的不会显示。我抓取的是 lo 网络接口，因为我本地有用 dnsmasq 做缓存。

其实这个程序一开始不是这样子的。群里有人想抓取系统上进行的 DNS 查询的域名。一开始是用 tshark 抓取的，然而它太占用内存了。我粗略看了一下 Python 的 scapy 工具，也用掉了大几十M内存。那么，用 Rust 写一个好了，也顺便练习一下 Rust。

这个程序运行时只有几M的内存占用，CPU 占用也是非常低的。不过它并没有做完全的协议分析，而是假设抓得的包是以太网帧封装的 IPv4 报文封装的 UDP 数据包里包着 DNS 应答报文。所以如果你是在 eth0 上跑 PPPoE 的话，抓 eth0 上的包就不行了，得抓 ppp0 这种了。当然你要是 IPv6 啊 DoH、DoT 啥的就更抓不到了。

后来我用 bcc 的 tcpretrans 脚本查看我这里到哪些地方的 TCP 连接不太通畅，然而经常会看到一些我猜不到是干嘛的 IP。所以就把这个程序改了一下，把域名对应的解析结果显示出来了。

Rust 不仅节省资源，而且开发的体验真的很棒呢，编译成功之后就能按我预期的运行了。也不用担心什么时候遇到个有问题的报文导致程序崩掉，因为写的时候就已经处理好了出错的情况。不像 Python 写的脚本，刚写好，一跑就抛个异常出来，提示我哪里不小心写错了。好不容易调试好了，跑着跑着，遇到意外情况就挂掉了……

Category: 编程 | Tags: Rust linux 网络 DNS

4
3
2019

正确的隐藏挂载点的方法

脚本需要挂载文件系统，但是不希望外部看到。正确的做法是：

mount --make-rprivate /

然后该干嘛干嘛。当然如果你不知道在执行之前先调用 unshare 或者等价的系统调用，说明这篇文章不适合你阅读。

错误的做法是在挂载的时候加 --make-private 或者把 / --make-private。这个标志（MS_PRIVATE）的意思是挂载/卸载事件在这里停止传播，而不是这个挂载点的事件是否传播出去。至于为什么需要使用 --make-rprivate（增加了 MS_REC 标志），暂时我还不理解。

这个用法是从 unshare 工具的 strace 结果里挖掘出来的。因为我的目的跟 unshare -m 一样嘛，当然首先想到的是看看它是怎么干的了。你问我为什么不用 unshare -m？你自己写脚本的时候试试看啰？

Category: Linux | Tags: linux 文件系统

3
31
2019

迁移系统到 SSD

序

最近一段时间，不知道是磁盘、缓存相关算法的更新，还是我开的服务太多，又或者是新软件占用内存太高，我的系统越来越卡了，尤其是更新系统的时候（备份系统时也特别卡，然后我用限制内存占用的办法解决了）。我当然知道最主要的原因是因为机械硬盘的处理能力就那么多，于是经过一些了解和计划之后，还是决定换 SSD 了。

刚才查看了一下历史数据。从去年七八月份起，平均内存使用量从2G多升高到了3G多。大概是火狐更占内存了吧。我都尽量减少内容进程数量了……也可能是 PHP / MediaWiki 的锅，因为使用 SQLite 存储时，经常发生错误也是这段时间的事情。不过也可以理解为由于磁盘负载重导致的。算了不管了。

准备工作

当然首先要去买块 SSD 啦。我买的是 LITEON T11 Plus 512，512GB，800块。实际操作系统得到的空间是 477GiB，因为硬盘产业还在沿用1000进制的单位词头。它比我预期的要小不少呢，不过拿在手里感觉比一般同样大小的电路板要重。

拆开我的 T470p，把空闲接口旁边的螺丝下下来，然后 SSD 标签朝外插进去。我也不清楚这个接口叫什么。插进去之后它是翘起来的，难怪要用螺丝固定。然后用下下来的螺丝固定好，再把机器装好，就好了。启动系统，可以看到 /dev/nvme0n1 设备在了～GNOME 磁盘软件不能读取到 SMART 信息，用 smartctl -a /dev/nvme0n1 命令就好了。

设备没问题了，接下来当然是备份系统啦。

开始迁移

备份妥当之后，我就开始格式化 SSD。计划是 EFI 分区 512M，400G 给我的 Arch Linux，然后剩下 76G 左右的空间预留给我的 Win10。

然后这 400G，首先上一层 LUKS 加密，然后格式化为 btrfs 文件系统。其实我想要 btrfs 很久了，快照、去重、压缩都挺棒的。但是听说它的性能比较差，而我已经在受磁盘 I/O 能力不足的苦了，所以到现在有了 SSD，是时候换 btrfs 了！

其实之前 zfs（zfsonlinux）也是候选项，并且已经在工作本上使用过了。然而最近我的 zfs 备份两度出现问题（磁盘掉线之后 zfs 元数据损坏，导致一整个 zfs 文件系统一写就卡住；近期莫名其妙 rsync 跑着跑着就卡在那里不动了，磁盘也没有什么活动），再加上之前遇到的各种大小问题（ARC 被算进内存使用量中；挂载期间一旦磁盘离线就卡死；克隆出来的文件系统无法摆脱原文件系统；不支持 overlayfs；因为是树外模块所以需要专门准备的支持 zfs 的系统来执行安装），以及 TRIM 支持刚刚才加入，我已经停用 zfs 并将其排除考虑范围了。

然后就是规划子卷。参考了 openSUSE 的方案，最终决定分为这么几个子卷：/, /var/cache, /var/tmp, /var/log, /var/lib/lxc/lxc-debian/rootfs, /var/lib/lxc/lxc-centos6/rootfs, /home/lilydjwg, /home/lilydjwg/.cache。主要考虑的是快照。另外我给 /var/log/journal 和 /var/lib/postgres chattr +C 禁用了 CoW。这样也会禁用压缩，不过本来它们基本上就没什么可压缩的。需要排除的有：我的公开第三方源码和各类大文件用的 /ldata 还是放在机械硬盘上、/var/cache/pacman/pkg 缓存不要、/var/lib/pacman.fs 不用单独放连续的文件里了、/home/lilydjwg/.cache 缓存不要、/home/lilydjwg/.debug 这个 perf top 用的目录会有 libc 的硬链接，rsync 时会失败所以就不要了。

最终的同步命令如下：

sudo systemd-run -p MemoryMax=64M --scope \
  rsync -aviHAXKhPS --inplace --delete --exclude='*~' --one-file-system \
  / /mnt/root --exclude=/var/cache/pacman/pkg --exclude=/home/lilydjwg/.cache \
  --exclude=/var/lib/pacman.fs --exclude=/ldata --exclude=/home/lilydjwg/.debug

同步好之后，重启进入 live 系统再同步一次以保证最新数据也同步好了。然后把部分被排除的目录再同步一下：~/.cache/winetricks 这个以后不一定能够下到、~/.cache/sxiv 都是有效缓存（我有清理）而且生成耗 CPU、/var/lib/pacman 这个是被 --one-file-system 排除掉的。

然后是在 /etc/default/grub 里更新内核命令行 cryptdevice=/dev/disk/by-partlabel/ssd:ssd:allow-discards。这个 allow-discards 会轻微地降低安全性，不过在中国没什么用的。更新 /etc/fstab。

然后还有 /boot 要处理。其实就是把内核和 initrd 复制过去，然后重新安装 grub、生成 grub 配置。位于机械硬盘上的旧文件之后再删掉即可。

重启，使用 fallback 版 initrd 进入系统，开始修复各种问题。

首先是更新默认的 initrd。不过在更新它之前，我要修改一下我自己的 hook。之前这个 hook 里只有 partprobe 我解密之后的机械硬盘分区，因为我在它上边又分了 xfs 和 swap 两个区。现在因为 encrypt hook 解密的是 SSD 上的分区，所以这个机械硬盘上的加密分区的解密也要自己做。其实也很简单，给这个加密分区添加一下文件密钥，然后

cryptsetup open --type=luks --key-file=/etc/keys/hdd.luks /dev/disk/by-partlabel/main main

就可以了。不需要输入两次密码。

/ldata 使用 automount 延迟挂载，所以需要写 ldata.mount 和 ldata.automount 两个文件，然后 enable ldata.automount 那个。不知道写在 /etc/fstab 里是不是也行。然后把机械硬盘里的目录结构调整一下，把原来 /ldata 下的东西上移一级，旧的 / 里的其它东西都放到隐藏的 .oldroot 里去好了。

swap 本来我是保留着的，不过发现这样子我会时不时听到机械硬盘启动了。而且因为机械硬盘启动比较费时，所以系统会卡好一会儿（大概有一两秒）……所以我默认就不开 swap 了，但是 resume hook 还是保留，需要的时候打开 swap 就可以休眠了。这个 resume hook 也是我需要在启动的时候就解密机械硬盘上的加密分区的原因。

加了一个每周运行的 fstrim -v / cron 任务。没有使用 fstrim.timer 是因为它会 trim 所有设备。而我可不希望它去 trim 我挂载的机械硬盘上的 loop 设备，会造成大量碎片的。

还有一些小问题要处理。chattr +i /etc/resolv.conf 以避免 DNS 服务器被不知不觉修改了。我有用 dnsmasq 的所以这个文件不用动。我有一个 MediaWiki 实例的文件是使用 overlayfs 的，它现在挂载提示「failed to verify upper root origin」。后来才发现相关目录上有同步到几个 trusted. 开头的、overlayfs 使用的扩展属性。是它还挂载的时候被同步到的，不知道为什么最后一次同步时没有被清除掉。手动使用 setxattr 删除掉就好了。

rsync 还出了另外几个莫名其妙的问题。我在 /usr/local/sbin 下有个最近新加的文件的执行权限消失了，造成使用它的 systemd 服务失败。另外有个最近被删除的配置文件竟然还在。我不是有指定 --delete 选项吗？火狐缓存的网站图标也都没有了，需要访问之后才会重新出现。~/.cache 下有很多 root 所有的空目录，也许是我哪次忘记 --exclude 它然后又中断才加上？

Wine 有几个文件有几十 KiB 大的 user.wine.sd 扩展属性。太大了以至于 btrfs 里放不下，报「No space left on device」错误。我刚看到时还吓一跳，以为是我的 SSD 满了，仔细一看才发现只是扩展属性写不下而已。

我于是又带 --dry-run 参数同步了一次，确定再没有什么需要的东西被落下。这次 rsync 出现这些问题很是奇怪，不过我没有留日志，加上操作的时候其实是有不少修修改改的，所以就不深究了吧。

修好所有发现的问题，再次重启之后，systemctl status 和 systemctl --user status 没有失败项了～撒花 O(∩_∩)O~

后记

现在我的系统超快的！比如启动时间：

>>> systemd-analyze
Startup finished in 9.257s (firmware) + 1.466s (loader) + 15.110s (kernel) + 6.945s (userspace) = 32.780s 
graphical.target reached after 6.945s in userspace

firmware 和 loader 咱管不了。kernel 那儿包含了我输入密码解密，以及解密和探索机械硬盘上的分区，所以花了些时间。userspace 那里你别看花了好几秒，其实大部分时间都是花在联网上了。不依赖网络的服务在差不多一秒的时间内就全部启动好了。

之后我还要更新备份脚本，因为我用了 --one-file-system 而现在它们在不同的子卷上。再写一下每日快照的脚本，就不用一不小心删错文件啥的都要去备份里找了。

关于写入量，smartctl -a /dev/nvme0n1; sleep 300; smartctl -a /dev/nvme0n1 统计了一下，因为我开了 collectd 收集一些系统数据，每分钟大概会写入 60MiB 的数据。算下来，一年要写 20T 左右。这块 SSD 标称的是 280TBW，也就是可以写 280TB 的数据。这么算起来能用十年，所以就这样吧，不用再优化了。顺便说一下，SMART 信息里的「Data Units Written」数据，乘以 512000 之后是字节数。

就这样啦。最后还要说一句：SSD 超快的！

Category: Linux | Tags: linux 硬件文件系统硬盘 ssd 外部设备

3
3
2019

使用 cgroups net_cls 来让 docker 走代理

我这里 docker hub 连不上或者连上了访问很慢，根本没法用。本来我常规代理的办法，要么是 proxychains，要么是用 iptables 代理特定的 IP 段。至于 docker 嘛，亚马逊的 IP 段那么多，它用到的域名我也不是很清楚，一点点加好麻烦。作为系统服务，用 proxychains 不仅得修改 systemd 服务配置，而且不知道会不会出什么幺蛾子。最近刚好在某个地方看到这一手，就试试啰。

其实用法很简单的。去 /sys/fs/cgroup/net_cls 下建立个目录，往 net_cls.classid 里写一个整数（支持十六进制的 0x 表示法），然后把 dockerd 的 pid 写到 cgroup.procs 里去。最后用 iptables 代理这部分流量即可。现在都用 443 端口啦，所以只要代理它便好，也避免影响了别的东西：

iptables -t nat -A OUTPUT -p tcp --dport 443 -m cgroup --cgroup 0x110001 -j REDIRECT --to-ports XXX

XXX 是 ss-redir 的端口啦。

注意不要把进程的 pid 往 tasks 文件里写。那里得写的是 task 的 id 而不是 process 的 id，也就是说（用内核的术语来说）是线程的 pid 而不是进程的 tgid（thread group id）。所以非要写 tasks 文件的话，得把 docker 所有的线程的 pid 都写进去才行。真是混乱呢……画个表格好了：

用户态	内核	相关系统调用
pid	tgid	getpid, kill
tid	pid	gettid, tgkill
process	task group	fork, clone without CLONE_THREAD
thread	task	clone with CLONE_THREAD

另外如果更新过内核的话，那句 iptables 有可能会找不到模块的。（所以更新内核之后还是重启一下以避免尴尬吧。）

Category: shell | Tags: iptables linux cgroups 网络代理

« 上一页 1 2 3 4 5 6 7 8 9 … 15 16 下一页 »

依云's Blog

Happy coding, happy living!

Intel GVT-g 初体验

准备 GVT-g

启动 KVM 虚拟机

参考链接

自制大上 Paperlike HD「驱动」

Python 3.8 升级记录

Poker II 键盘调教记

NVIDIA PRIME 配置笔记

T470p 使用N卡运行 Xorg

系统在解析哪些域名呢？

正确的隐藏挂载点的方法

迁移系统到 SSD

序

准备工作

开始迁移

后记

使用 cgroups net_cls 来让 docker 走代理

随机文章

最新评论

最新留言

链接

计数器

存档

功能

RSS

权利声明

Happy coding, happy living!

准备 GVT-g

启动 KVM 虚拟机

参考链接

序

准备工作

开始迁移

后记

随机文章

标签云

最新评论

最新留言

链接

计数器

存档

功能

RSS

权利声明