依云's Blog

3
5
2025

pacfiles: 高速的 pacman -F 替代品

缘起

Linux 发行版的软件包管理器通常都会提供这么一个功能——查找文件在哪个仓库中存在的软件包里。实现起来也挺简单：仓库维护一个每个软件包里都有哪些文件的数据库，软件去查就可以了——假如用户不介意性能问题的话。

最开始，我使用的是 pkgfile。它是使用 C++ 编写的，会把 Arch 官方提供的 .files 数据库（压缩的 tar 归档）转成 cpio 归档再用（压缩可以靠 btrfs，问题倒是不大）。它比 pacman -F 可快多了，但是我后来不用了，因为它当时不支持多架构——即在 pacman.conf 里把 Architecture 设置为多个值，比如我用的 x86_64 x86_64_v3。现在等我写好了 pacfiles，才发现它终于在大半年之前支持多架构了……不过它看起来开发还是不太活跃，选项和输出格式也和 pacman -F 有很大的差别。

效果对比

最主要的功能是按文件名搜索，因此让我们先看看这个：

pacman -F 和 pkgfile 都是遍历整个数据库。pacman -F 和 pacfiles 是单线程的，pkgfile 是多线程，但我不知道为什么 pacman -F 会慢那么多。pkgfile 比 pacfiles 快一些，毕竟它提供的信息少、又不好看、还是多线程并行工作。另外值得注意的是，pacman -F 由于会预先加载整个数据库到内存，因此内存占用了近 3G。

有时候也会想要按完整路径搜索：

这次 pacfiles 因为有索引的帮助，并且不需要检查软件包是否已安装，比 pkgfile 快了不少。pacman -F 依旧又慢又吃内存。

接下来看看输出软件包的文件列表。这个由于输出结果多、输出格式又都差不多，我就重定向扔掉了，只看性能数据。

这次 pkgfile 比 pacfiles 略快。

有时候也会想用正则搜索：

$pacman -F --regex '.*libpython3\.11.*'$

$pkgfile --regex '.*libpython3\.11.*'$

$pacfiles -F --regex '.*libpython3\.11.*'$

这次 pkgfile 比 pacfiles 快了不少。使用正则搜索时，pacfiles 没有使用索引，也是遍历数据，所以快不起来了。

不过 pacfiles 是支持通配符搜索的，也能用上索引，很快的。pacman -F 不支持这个。而 pkgfile 嘛……它不仅慢，好像还又出 bug 了。

如果我写 pacfiles 之前得知 pkgfile 修了多架构那个 bug，我也许就不会写 pacfiles 了。不过现在对比下来，我也不后悔啦。

另外值得注意的是，pacfiles 无论是输出、还是命令行选项，都尽力兼容 pacman -F 的，以方便用户迁移。

幕后

其实我很早就想弄一个更快的 pacman -F 了。我首先想到的是，把数据塞进 SQLite3 里让它查。性能确实是好得不得了，但是一看生成的数据库，好几个 G……后来又尝试像 pacman -F 那样直接读压缩包，但是不一次性加载到内存，因此不需要那么多内存。但结果并不理想：解压和遍历搜索都不太能快得起来，最多并行处理多个数据库而已。plocate 是很快啦，但是它的数据结构是自己定制的，并不是库，不能直接拿来用。于是此事便放下了。

直到前不久，我读到《Succinct data structures》一文，特别是文中提到的 FM-index——这不正好能用来搜索文件名吗？不过，plocate 用的是什么数据结构来着？于是我去翻代码恢复了一下久远的记忆。哦，是 zstd 压缩的 trigram 倒排索引啊。好像也不错，还支持通配符呢。正则搜索它倒是没用上索引，因为作者认为「使用 locate 进行正则搜索太小众了」所以没有花精力去实现。

但是，以上关于数据结构的内容都不是重点！重点是，我发现了个 plocate-build 命令！它支持从纯文本创建 plocate 数据库！那我不是直接把文件名传给它就好了嘛～唯一有点遗憾的是，它不支持从管道读取文件名列表，因此需要先输出到临时文件中再给它使用，过程中会占用不少内存（/tmp 空间）。至于查询，调用 plocate 命令拿到结果再稍微处理一下就好了。于是想到就做，这就有了现在的 pacfiles（其实早期版本也在 git 历史里有）。

项目地址：https://github.com/lilydjwg/pacfiles。AUR 有 pacfiles-git 包。也可以 cargo install pacfiles 安装。

Category: Linux | Tags: Arch Linux Rust

8
12
2021

使用 bwrap 沙盒

bwrap 是命令的名字。这个项目的名字叫 bubblewrap。它是一个使用 Linux 命名空间的非特权沙盒（有用户命名空间支持的话）。

我之前使用过 Gentoo 的 sandbox 工具。它是 Gentoo 用于打包的工具，使用的是 LD_PRELOAD 机制，所以并不可靠。主要用途也就是避免打包软件的时候不小心污染到用户家目录。

使用 bwrap 的话，限制是强制的，没那么容易绕过（至于像 Go 这种因为不使用 libc 而意外绕过就更难得了）。不过 bwrap 不会在触发限制的时候报错。

bwrap 的原理是，把 / 放到一个 tmpfs 上，然后需要允许访问的目录通过 bind mount 弄进来。所以没弄进来的部分就是不存在，写数据的话就存在内存里，用完就扔掉了。这一点和 systemd 也不一样——systemd 会把不允许的地方挂载一个没权限访问的目录过去。

bwrap 的挂载分为只读和可写挂载。默认是 nodev 的，所以在里边是不能挂载硬盘设备啥的。它也提供最简 /proc 和 /dev，需要手动指定。整个 / 都是通过命令行来一点点填充内容的，所以很容易漏掉部分内容（比如需要联网的时候忘记挂载 resolv.conf 或者 TLS 证书），而不会不小心允许不应当允许访问的地方（当然前提是不偷懒直接把外面的 / 挂载过去啦）。

至于别的命名空间，有 --unshare-all 选项，不用写一堆了。如果需要网络，就加个 --share-net（这个选项文档里没写）。没有别的网络方案，因为没特权，不能对网络接口进行各种操作。--die-with-parent 可以保证不会有残留进程一直跑着。

我目前的打包命令长这样：

alias makepkg='bwrap --unshare-all --share-net --die-with-parent \
  --ro-bind /usr /usr --ro-bind /etc /etc --proc /proc --dev /dev \
  --symlink usr/bin /bin --symlink usr/bin /sbin --symlink usr/lib /lib --symlink usr/lib /lib64 \
  --bind $PWD /build/${PWD:t} --ro-bind /var/lib/pacman /var/lib/pacman --ro-bind ~/.ccache ~/.ccache \
  --bind ~/.cache/ccache ~/.cache/ccache --chdir /build/${PWD:t} /usr/bin/makepkg'

以后应该随着问题的出现还会修改的。

其实我学 bwrap 主要不是自己打包啦（毕竟基本上都交给 lilac 了），而是给 lilac 加固。Arch 的打包脚本是 shell 脚本，所以很多时候不执行脚本就没办法获取一些信息、进行某些操作。唉，这些发行版都喜欢糙快猛的风格，然后在上边打各种补丁。deb 和 rpm 的打包也都是基于 shell 脚本的。而 lilac 经常通过脚本编辑打包脚本，或者从 AUR 取，万一出点事情，把不该删的东西给删掉了，或者把私钥给上传了，就不好了。所以前些天我给 lilac 执行 PKGBUILD 的地方全部加上了 bwrap。期间还发现 makepkg --printsrcinfo 不就是读取 PKGBUILD 然后打印点信息嘛，竟然不断要求读取 install 脚本，还要对打包目录可写……

另一个用法是，跑不那么干净的软件。有些软件不得不用，又害怕它在自己家里拉屎，就可以让它在沙盒里放肆了。比如使用反斜杠作为文件路径分隔符写一堆奇怪文件名的 WPS Office。再比如不确定软件会不会到处拉屎，所以事先确认一下。我以前使用的是基于 systemd-nspawn 和 overlayfs 的方案（改进自基于 aufs 和 lxc 的方案所以名字没改），不过显然 bwrap 更轻量一些。跑 GUI 的话，我用的命令长这样：

bwrap --unshare-all --die-with-parent --ro-bind / / \
  --tmpfs /sys --tmpfs /home --tmpfs /tmp --tmpfs /run --proc /proc --dev /dev \
  --ro-bind ~/.fonts ~/.fonts --ro-bind ~/.config/fontconfig ~/.config/fontconfig \
  --bind ~/.cache/fontconfig ~/.cache/fontconfig --ro-bind ~/.Xauthority ~/.Xauthority \
  --ro-bind /tmp/.X11-unix /tmp/.X11-unix --ro-bind /run/user/$UID/bus /run/user/$UID/bus \
  --chdir ~ /bin/bash

其实还可以用来给别的发行版编译东西，取代我之前使用 systemd-nspawn 的方案。bwrap 在命令行上指定如何挂载，倒是十分方便灵活，很适合这种需要共享工作目录的情况呢。以后有需要的时候我再试试看。（好像一般人都是使用 docker / podman 的，但是我喜欢使用自己建立和维护的 rootfs，便于开发和调试，也更安全。）

和 bwrap 类似的工具还有 SELinux 和 AppArmor。它们是作用于整个系统的，Arch Linux 安装会很麻烦，对于我的需求也过于复杂。Firejail 是面向应用程序的，但是配置起来也挺不容易。bwrap 更偏重于提供底层功能而不是完整的解决方案，具体用法可以让用户自由发挥。

Category: Linux | Tags: Arch Linux linux 安全

11
16
2020

Python 小版本升级是怎么 break 已有项目的

近日，Arch Linux 终于开始升级到 Python 3.9 了。很多人认为 Python 小版本升级容易搞坏兼容性，导致项目无法在新的版本上运行。事实是这样的吗？我正好借着 Arch Linux 升级 3.9 的机会，分析一下打包过程中失败的项目到底是出了什么事。

需要说明的是，我仅大致地分析了打包的报错信息，不排除分析出错，或者有额外的问题没有被看见的情况。另外我是在打包过程中随机（arbitrarily）取样，并且排除了我不能确定问题所在的案例。

以下项目测试失败是和 Python 3.9 相关的。排序是按照项目开发者的无辜程度排序的。也就是说，排序越靠前的，我越是认为项目开发者是无辜的；而像「硬编码 Python 3.9 为未发布的版本」这种完全不 future-proof 的做法，现在坏掉了真是自找的。

其中，使用的公开特性变化导致问题的有 3 个，调用私有属性或者方法、依赖非正式的文本信息的有 11 个，使用已废弃的特性的有 8 个，使用已被修复的 bug 的有 2 个，使用未来注定会出问题的信息的有 3 个。总共 27 个。

freecad: PyTypeObject.tp_print 没了
python-llfuse: PyTypeObject.tp_print 没了
linux-tools: PyMODINIT_FUNC 的变化导致了警告，然后被转为错误
python-blist: _PyObject_GC_IS_TRACKED 宏不再在第三方库中可用（被公开 API 取代）
python-pyflakes: Python 语法解析报告的列位置似乎不太对，应该是受新的语法解析器的影响
python-pylint: Python 语法解析报告的列位置似乎不太对，应该是受新的语法解析器的影响
python-typing_inspect: 使用私有名称 typing._GenericAlias，结果新版本变成了 typing._SpecialGenericAlias
python-sphinx-autodoc-typehints: 看上去是类型标注相关的内部更改移除了 typing.Dict.__parameters__ 属性造成的
python-fastnumbers: 看上去是内部函数 _Py_dg_stdnan 不再被默认包含导致的问题
python-libcst: 类型标注相关的内部更改移除了 typing.Dict.__args__ 属性造成的
monkeytype: typing.Dict 的类型从 type 变成了 typing._SpecialGenericAlias
scrapy: 由于 typing.Optional[str] 的字符串表示由 typing.Union[str, NoneType] 变成了 typing.Optional[str] 导致 mitmproxy 运行出错，进而使得 scrapy 的测试失败
python-billiard: 调用的私有方法 _posixsubprocess.fork_exec 参数发生了变化
python-pytest-benchmark: argparse 的帮助信息格式有优化
python-opentracing: 自 3.7 起废弃的 asyncio.Task.current_task 被移除
python-engineio: 自 3.7 起废弃的 asyncio.Task.all_tasks 被移除
impacket: 自 3.2 起废弃的 array.array.tostring() 被移除
python-pybtex: 自 3.2 起废弃的 xml.etree.ElementTree.Element.getchildren 被移除
python-jsonpickle: 自 3.1 起废弃的 base64.decodestring 被移除
python-ioflo: 自 3.1 起废弃的 json.loads() 参数 encoding 被移除
routersploit: 自 Python 3 起废弃的 threading.Thread.isAlive 终于被移除了
python-socketpool: 自 Python 3 起废弃的 threading.Thread.isAlive 终于被移除了
python-furl: Python 3.9 修正了一处 URL 解析 bug
python-stem: Python 3.9 移除了错误的 unittest.mock.__version__
python-natsort: Python 的 Unicode 支持更新到了 13.0.0 版本，CHORASMIAN NUMBER ONE 字符被判定为数字，但是测试代码不认识，认为程序出错
python-pony: 对新版本的 Python 报不支持的错误
python-dephell-pythons: 硬编码 Python 3.9 为未发布的版本，但现在 3.9 已经发布了

而以下项目的测试失败与 Python 3.9 没有直接关系，共 26 个。其中与 Python 生态有关的有 18 个，与其它项目有关的有 4 个，依赖外部信息的有 3 个，包括一个特别搞笑的依赖夏令时是否生效的。

python-eventlet: 调用的 dnspython 私有方法已不存在；DNS 解析超时
python-markdown2: 语法高亮的结果有少许变化，不符合预期。推测是 pygments 新版本的变化
python-flake8-typing-imports: 似乎是 flake8 能够检测到更多的问题了
python-babel: 使用了已废弃的特性，测试被 pytest 拒绝
python-pygal: pytest 6.1.0 移除了 Metafunc 的 funcargnames 属性
python-flask-gravatar: 使用了已废弃的特性，测试被 pytest 拒绝
python-pytest-relaxed: 使用了已废弃的特性，测试被 pytest 拒绝
python-pytest-randomly 使用了已废弃的特性，测试被 pytest 拒绝
python-deprecated: 测试所预期的警告文本信息已经发生变化
python-dbus-signature-pyparsing: 执行时间超过了测试设定的 200ms 时限
python-tinycss2: flake8 风格检查未通过
python-pytest-runner: black 风格检查未通过
python-portend: black 风格检查未通过
python-aiohttp: @coroutine 的 DeprecationWarning 被视作错误
python-poetry: poetry-core 的一项数据由 dict 改为 OrderedDict，使得输出顺序与测试预期的不一致
python-isort: 将使用旧版本 isort 的外部项目的 import 排序视为正确，然后它还真出错了
python-cachecontrol: Python 2.7 相关
python-zc.lockfile: 测试代码把 Python 3 代码喂给了 Python 2.7。可能是该库已经不支持 2.7 了
python-occ-core: 依赖 OpenCASCADE 的版本更新，不被支持
protobuf: C 整型比较因表示范围问题而恒为假，警告转错误。是因为新版本的 gcc 比较聪明么？
gnome-passwordsafe: 构建系统发现有依赖缺失
io: C 代码引用了不存在的系统头文件
ceph: C++ 相关问题
python-distlib: 调用远程 XML-RPC 太多被限制导致预期的数据与实际错位
python-requests-toolbelt: 测试所需要的 HTTP 资源 404 了
postgresql: 夏令时结束，导致实际时区与预期对不上。「所以冬天就不要滚包啦，冬天要冬眠！」

所以在这些升级 Python 3.9 的项目中，不兼容 Python 3.9 仅仅只占一半，其中又有一半多属于「总有一天会坏掉」的类型（一大半属于「不听话」，使用没有明确文档、预期为私有的特性，少数尝试当预言家但是失败了）。最后剩下的，再一大半是使用了至少两个版本前已经说了要废弃的特性，只有三个莫名地发现自己真的被 Python 坑了，还都是 C API 部分的。

所以我对我自己的脚本顺利升级到 Python 3.9 非常有信心呢。可能有些老代码使用了已经废弃的特性，所以我也设置了环境变量 PYTHONWARNINGS=default,ignore::ResourceWarning 以便及时得到提示。

哦对了，Arch Linux 中受 Python 3.9 升级影响需要更新的软件包共有2077个，绝大部分我都没见着失败的。目前从开始升级到现在已经过去六天，还剩最后40个失败了的包。

Category: python | Tags: python Arch Linux 编程语言编程

10
29
2020

让 Arch Linux 系统和最新的镜像同步，从最快的镜像下载

2024年03月20日更新：pacman 6.1.0 增加了 CacheServer 的支持，已经不需要使用本文这种办法啦～

Arch Linux 就是要追新！要追新自然要选择一个更新及时的软件仓库镜像啦，比如国内的 TUNA、USTC 同步都很及时。但是呢，这俩难兄难弟最近一段时间有些吃不消了，导致下载包的时候很慢，甚至超时失败，使用体验真糟糕。如果直接用上游镜像，比如 pkgbuild.com，漂洋过海的，也挺慢的。

而国内另一些镜像，比如网易、腾讯云、阿里云、华为云，他们要么有 CDN，要么线路很好，下载速度飞快。但是呢，他们基本上每天才同步一次，阿里云还时不时连续数天都没能同步成功，这让喜欢追新的 Arch Linux 用户多不舒服呀。当群里的小伙伴们都用上了最新版本的软件，体会到了让人心痒痒的新特性和 bug 时，你 -Syu 却是「今日无事可做」，真是扫兴呢。

和最新的镜像同步，从最快的镜像下载，真的不可兼得吗？

非也。只需要稍微配置一下，用上我的 pacsync 脚本，就可以啦～

	#!/bin/bash -e

	unshare -m bash <<'EOF'
	mount --make-rprivate /
	for f in /etc/pacman.d/*.sync; do
	filename="${f%.*}"
	mount --bind "$f" "$filename"
	done
	pacman -Sy
	EOF

view raw pacsync hosted with ❤ by GitHub

配置方式是，为 /etc/pacman.d 下的镜像列表文件创建一个.sync后缀的同名文件，里边指定用于同步的镜像，而不带.sync后缀的文件里按优先级列出多个镜像。pacman 在下载文件时，会按顺序依次尝试列出的镜像，如果遇到更新不及时 404 的时候，就会尝试另一个。这样，可以仅在下载快的镜像里还没有需要的包文件时，才转而从比较慢的镜像下载。

而需要同步 pacman 数据库的时候，使用pacsync脚本取代pacman -Sy。脚本会使用 bind mount 用.sync文件取代不.sync的版本，就能同步到最新的数据库了。原来的pacman -Syu命令要拆开来用，先pacsync再pacman -Su了。

脚本里使用了单独的挂载空间并且将挂载改为了私有，所以并不会影响到外边。

Category: Linux | Tags: linux Arch Linux

11
26
2019

Python 3.8 升级记录

Python 3.8 发布有好多天了，Arch Linux 也早就重新打包了一千多个包（感谢辛勤的肥猫猫），隔天就从 [staging] 进入 [testing] 了，四天之后进入正式仓库（[extra] 和 [community]）。

Python 3.8 进入官方仓库的次日，我本地进行了更新。之所以要等一天，自然是等 [archlinuxcn] 的更新啦。然后那些需要人工干预而又暂时没人理的我本地重新打包了。使用 pacman -Qo /usr/lib/python3.7/site-packages 查询尚未更新的软件包，然后对着对应的 PKGBUILD 一顿改（基本上也就是 pkgrel 加 0.1 而已），makepkg -si 就好了。

但是这样还没完事哦。

先 sudo updatedb 更新一下 mlocate 的数据库。然后 locate -be python3.7 | grep -v /var/lib/lxc 找到一些残留的文件，主要是 ~/.local/lib 下的，以及散落在管理之外的 venv 里的。~/.local/lib 下的都是我自己的项目，删掉然后重新去项目里 python setup.py develop --user 就好了。venv 的话，直接删掉吧……

然后是 locate -be python-37 | grep -v /var/lib/lxc | grep -v /usr/lib/python3.7/site-packages。这个是为了查 Python 3.7 的 pyc 文件，所以这次也排除了 Python 3.7 的 site-packages，避免尚未更新的 Python 包的干扰（有些暂时用不到的包我就懒得自己 makepkg 了），等更新完之后整个目录删掉。有些软件包（比如 gdb-common）没有使用标准的 Python 安装流程（比如因为并不是标准的 Python 库），打包者（比如著名的 Allan McRae）没有或者拒绝在打包时编译 pyc 文件，造成 Python 自行创建不被管理的 pyc 文件，软件包卸载或者 Python 升级后就残留下来了。

确认没有问题之后（比如有些软件可能自带了个旧版本的 Python，或者有些并不是 pyc 的文件也包含这个字符串），执行 locate -be python-37 | grep -v /var/lib/lxc | grep -v /usr/lib/python3.7/site-packages | sudo xargs rm -v 删除这些文件。当然如果有需要保留的文件自行从文件列表中删掉先。

pyc 清理之后，接下来清理一下空的 __pycache__ 目录啦。locate -be __pycache__ | sudo xargs rmdir -v 2>/dev/null 就可以了，非空目录不会被删掉的。

哦对了，我现在在用 mypy 了，所以还要 locate -we .mypy_cache/3.7 一下。

我之所以现在记录这事儿，「现在」的原因是，我要在另一个系统上再测试一遍再发布出来，「记录」的原因是，下一次我就不用想要执行哪些命令了。

Category: Linux | Tags: linux python Arch Linux

9
20
2018

永远不要 tail -f 管道

运维同事为了收集日志，配置程序将日志写入一个命名管道。然后他在外边拿 tail -f 去读，结果发生了灵异事件。通过 strace 可以看到，tail 进程读取了日志，但是却并没有再输出来。但是如果不启动输出日志的程序，而是在实例启动之后再进去往管道里写数据，却又是可以立即得到 tail 的输出的。

很奇怪的行为，一群人在那里研究半天，猜测是不是环境变量造成的啊，是不是放后台组执行造成的啊，是不是 XYZ 啊。——典型的「霰弹枪式」除错法。

我当时也被带沟里了。于是跑去尝试复现，接着去读 tail 的源码。花了好久才明白这是一个很简单的问题：tail -f 的语义首先是 tail 这个词本身——先读文件最末尾的数据（默认是十行），然后再是 -f 选项的语义，即在文件更新时接着读取数据并输出。所以，当程序往里边写日志时，管道写端一直没关闭，tail 就一直读不到文件结束，也就无法确定最后十行是什么。当他们测试的时候，因为使用的是 echo shell 命令，打开文件、写入数据、关闭。这样 tail 一下子就读取到了文件末尾，然后把数据输出来了。接下来就是边读边输出了。

其实这种使用方法本身就很奇怪了，以至于这个执行流是兼容许多系统的 tail 的各种分支里，最最不常规、无可奈何的那一个分支。你都用管道了，cat 一下嘛。如果怕遇到管道被 reopen 的情况，就在 while true 里 cat 就好。

这个事件中，我也是见识了很多人解决问题的奇怪思路：「我猜猜猜。猜对了哦耶，猜错了，哎呀编程好难啊，Linux 系统好难啊……」猜你妹啊！你长的是大脑又不是骰子，用逻辑一步一步地取得结果不好吗！

有一个小游戏——猜数字。比如甲确定一个 1 到 1000 之内的整数，然后乙来猜。每当乙给出一个猜测时，甲回应猜对了，还是过大或者过小。如果乙知道什么叫二进制的话，乙可以保证在十次之内猜中的。

计算机系统和编程世界里，最棒的一点是确定性和逻辑性。虽然经常也不是像上例那样完全确定的，但至少比起人类社会要容易确定得多。特别是在有源码的时候。所以解决问题的路线也很简单，顺着问题的症状一路回溯，确认然后排除那些没有问题的部分，逐步缩小问题所在的范围，直接你看见它。就跟上边的猜数字游戏或者地毯式搜索一样。每一次猜测都是带着排除一部分没有问题的地方而去，而不是明明有证据表明某个地方不可能有问题，你还偏偏怀疑问题在那里，做无用功。

就像调查一个凶案，这些人放着有作案嫌疑的人不管，非要费劲地去调查那些有相当好的不在场证明的人。

Arch Linux 中文社区这边也有很多这种人。出了问题描述不清楚症状。新手嘛，没经验也没学习过如何描述事实，讲不清楚也没什么，引导对方获取截屏、日志，逐步排查问题就好了嘛。可就是有些热心人，喜欢提出自己的猜测。重点是：都不尝试证实猜测是否属实，就急着上解决方案。结果就是，我询问细节事实的消息没人理，求助者试试这个，试试那个，最终问题能否解决，就跟买彩票能否中奖一样，全凭运气。

Category: Linux | Tags: Arch Linux fifo linux 社群

2
10
2018

加固 systemd 服务

最近学 wzyboy 搭了一套 collectd + Graphite + Grafana 监控。collectd 和 Grafana 都比较好搞，Arch 官方源里有。但是 Graphite 就没有了。

我没有使用 Python 2 版、带 Web 前端的 Graphite 包，而是使用 graphite-api 提供 Web API，python2-carbon 存储数据。它们在 AUR 上有，其中 python2-carbon 是相当危险的（现在已经改了）。

为什么危险呢？

首先，最明显的，carbon 服务以 root 用户运行。它本身没有任何使用 root 权限的必要，所以专门创建一个 carbon 用户更好。

其次，它运行起来之后，我发现是监听 0.0.0.0 的。这个也无必要：我的 collectd 就在本地呢。

最后，也是最吓人的：它默认开启了接收 pickle 数据的端口。Python pickle 模块的文档一打开，就能看到红色的警告，告诉人们不能接收不信任来源的 pickle 数据。而我曾经工作过的公司也发生过通过 pickle 注入代码的事情：攻击者发现了一个对外网开放的 Redis 服务，刚好那个 Redis 是给 Celery 用的。攻击者于是往里边写了条自己构造的 pickle，在解析时调用 curl 命令向其服务器报告IP、端口和当前UNIX用户的信息。

这接口，开在外网，就是远程代码招行；开在本地，就是本地提权。很危险的。

为了防止各种漏洞被利用，一个未雨绸缪的办法就是：权限最小化。本来这是件比较麻烦的事情，好在 systemd 提供了许多现成的配置项，使得给 carbon 这种服务加固简单易行。

首先创建用户，写一个 sysusers 文件就可以了：

carbon.sysusers
1	`u carbon - "carbon service" /var/lib/carbon`

然后，它需要使用文件系统的某些部分。那么别的就用不着访问了，比如 /home。而 /dev、/tmp 这些，自己用自己的就好。连 / 也不让写，也不允许获取任何新特权了。其实使用 carbon 用户它本来就写不了 / 也没有任何特权了，但以防万一嘛，要是哪里来个本地提权漏洞呢？

[Unit]
Description=Graphite/Carbon
After=network.target

[Service]
Type=forking
ExecStart=/usr/bin/carbon-cache.py --config=/etc/carbon/carbon.conf start
User=carbon

PrivateTmp=true
PrivateDevices=true
ProtectSystem=full
ProtectHome=true
NoNewPrivileges=true
CapabilityBoundingSet=

ReadOnlyPaths=/
ReadWritePaths=/run
ReadWritePaths=/var/log/carbon
ReadWritePaths=/var/lib/carbon

[Install]
WantedBy=multi-user.target

限制文件系统的访问，systemd 配置起来很方便，我打包的时候喜欢尽量加上。

完整的 python2-carbon 服务配置和打包脚本在这里。

以及，这里是 Arch Linux 中文社区的编译机的 Grafana。

Category: Linux | Tags: Arch Linux systemd linux 安全

9
11
2017

等连上互联网之后再来找我吧

最近公司弄了 Wi-Fi 登录。就是那个叫 captive portal 的东西。

Android 早就会在连接 Wi-Fi 时检测网络是不是要登录了，为此 Google 弄了个 /generate_204 的 URL。小米、高通、USTC、v2ex 也都提供了这个东西，方便广大中国大陆 Android 用户使用。（我发现我的 Android 使用的是高通的地址，没有用 Google 的。）

但我使用的 Arch Linux 自行开发的 netctl 网络管理工具没这种功能。火狐倒是不知道什么时候加上了，不过使用的地址 http://detectportal.firefox.com/success.txt 是返回 200 的。

所以我启动火狐就可以看到要登录的提示了。然而问题是，其它程序不知道要登录啊。像 offlineimap、openvpn、rescuetime 这种还好，会自己重试。可每次网络需要登录的时候 dcron 就会给我发一堆邮件告诉我我的 git pull 都失败了……当然还有我老早就注意到的 pkgstats，经常会因为启动过早而无法发送统计数据。

所以呢，得想个办法，等连上互联网之后再跑那些脚本啊服务什么的。

检测是不是连好了很简单，不断尝试就可以了。但我需要一个系统级的 Condition 对象来通知等待方可以继续了。然而我只知道 Linux 有提供信号量。难道要自己弄共享内存来用么？

去 #archlinux-cn 问了一下，farseerfc 说试试命名管道。我想了想，还真可以。只有读端的时候进程就会阻塞，一旦有写端就能成功打开了。当然没有读端的打开写端会打不开，不过没关系，反正这进程也不能退出，得一直拿着这个文件描述符。

没想到很少用到的命名管道有意想不到的用法呢。我以前还为了不阻塞而专门写了篇文章呢。

于是负责检测网络连通的 check-online 和等待网络连好的 wait-online 都写好了。

check-online 应当是个服务。那就交给 systemd 吧。然后……systemd 不是有个 network-online.target 么？正好可以让 check-online 来达成这个目标呢，多合适呀。

于是服务写好了。测试了几天，大成功！不仅 wait-online 很好地工作了，而且我发现 openvpn 和 pkgstats 自动排到 network-online.target 后边去了。nginx 的 OSCP staple 经常因为 DNS 失败而无法成功，我也可以在联好网之后去 reload 一下它了。（不是强依赖，我可不希望连不上网的时候我本地的 wiki 也访问不了。）

整个项目就叫作 wait-online，在 GitHub 上，欢迎送小星星哦～Arch Linux 包可以从 [archlinuxcn] 仓库安装 wait-online-git 包。

Category: Linux | Tags: Arch Linux python systemd 网络 fifo linux

5
11
2015

使用 bcache 自制「混合硬盘」

换了新本子，外存是1T机械硬盘和16G固态硬盘。这16G SSD 速度挺快的尤其是读的时候，可它拿来放 / 都不够呢，于是拿来作缓存加速。根据局部性原理，虽然数据很多，但是最常访问的只占其中一小部分呢。

搜索的结果是有三个方案：bcache、dm-cache 和 Facebook 的 flashcache。前两者在官方内核里，不需要另外安装。我是最先在 Arch Wiki 上看到 bcache 的，后来又看 dm-cache，发现需要自己指定元数组的存储什么的，略复杂。而且一些评测显示 bcache 性能要好一点，所以就它了。

$\require{extpfeil} \rm{SSD} + \rm{HDD} \xlongequal{\rm bcache} \rm{SSHD}$

配置起来其实很简单。首先安装 AUR 里的 bcache-tools，然后创建存储数据的分区和用于缓存的分区：

1 2	`make-bcache -B` `/dev/sda2` `make-bcache -C` `/dev/sdb1`

教程上使用的是 SSD 的分区。换成 SSD 的块设备本身应该也可以。

参数什么的我没调。然后是把缓存设备的 UUID 写到 /sys/block/bcache0/bcache/attach 里。

为了最优性能，往 /sys/block/bcache0/bcache/cache_mode 里写入「writeback」来更改其缓存策略为「写回」。默认是「写通」（writethrough），也就是写的时候同时写缓存和后端设备，不会在缓存出问题时丢数据，但是会慢。另一个可选的策略是「writearound」，不知道该怎么译，是只写到后端设备而不写缓存的。最后一个是「none」，不知道用了它会发生什么……

换出策略使用默认的 LRU（最近最少使用）。剩下的两个（FIFO 和随机）应该效果没 LRU 好。

这些设备是会记住的，无需在启动时重启配置。至少我用的 4.0.1 内核是这样。

弄好之后就可以折腾 /dev/bcache0 这个块设备了。我放弃了之前使用文件级的 eCryptfs，改用在备份里使用得挺爽的块设备级的 dm-crypt，然后才格式化成 ext4。也就是：

$文件数据 \xrightarrow{\textrm{I/O相关系统调用}} \rm{ext4} \xrightarrow{加密} \textrm{dm-crypt} \xrightarrow{缓存} \rm{bcache} \xrightarrow{写入} \rm{SSD} + \rm{HDD}$

所以我的 /etc/mkinitcpio.conf 里要加上 bcache 和 encrypt 两个 hook：

1	`HOOKS="base udev autodetect modconf block bcache encrypt filesystems keyboard fsck resume"`

（不过这样子不能用外接 USB 键盘输入密码的。）

然后 mkinitcpio -p linux 一下，生成新的 initramfs 镜像。

为了共享缓存，我把 / 和 /home 放一起了（不过我猜对 /dev/bcache0 进行分区也是可以的？）。虽然这样子整个 / 用去了60多G空间，但是缓存的命中率还是非常高的——

>>> bcache-status -a
--- bcache ---
Device                      /dev/bcache0 (254:0)
UUID                        07a9b6a5-7f18-4950-84d6-c90abaaf65dc
Block Size                  0.50KiB
Bucket Size                 512.00KiB
Congested?                  False
Read Congestion             2.0ms
Write Congestion            20.0ms
Total Cache Size            14.91GiB
Total Cache Used            14.91GiB    (100%)
Total Cache Unused          0B  (0%)
Dirty Data                  0.50KiB     (0%)
Evictable Cache             14.17GiB    (95%)
Replacement Policy          [lru] fifo random
Cache Mode                  writethrough [writeback] writearound none
Last 5min Hits              439 (92%)
Last 5min Misses            38
Last 5min Bypass Hits       424 (100%)
Last 5min Bypass Misses     0
Last 5min Bypassed          61.50MiB
Last Hour Hits              46003       (88%)
Last Hour Misses            6051
Last Hour Bypass Hits       94043       (100%)
Last Hour Bypass Misses     0
Last Hour Bypassed          400.00MiB
Last Day Hits               79485       (88%)
Last Day Misses             10214
Last Day Bypass Hits        170383      (100%)
Last Day Bypass Misses      0
Last Day Bypassed           602.00MiB
Total Hits                  79485       (88%)
Total Misses                10214
Total Bypass Hits           170383      (100%)
Total Bypass Misses         0
Total Bypassed              602.00MiB

bcache-status 脚本来自这里。

感觉还挺快的，特别是各种程序如火狐、gvim、pidgin、zsh 的启动速度，以及 mlocate、pacman 的搜索速度都非常快。没有对比数据，因为我没有试过在这个本子上不用 bcache 的情况下把系统弄起来。之前的旧本子可能因为分区太满导致碎片严重，所以 I/O 性能很差劲的。

Category: Linux | Tags: linux Arch Linux bcache SSD 硬盘

11
8
2014

在 Arch Linux 下安装 openSUSE LXC 虚拟机

前边，我已经尝试过在 Arch Linux 下安装 Funtoo。在 Arch 中安装 Arch 就更简单了。为了测试，我还通过 Aufs 来将我的 Arch Linux 在 LXC 里复制一份。至于安装个 Debian 或者 Ubuntu LXC，由于有在任何 Linux 下都可以跑的 deboostrap，安装起来也十分容易。

现在难题来了：在 LXC 里安装一个 openSUSE。LXC 自带了个 openSUSE 模板，但是它需要 zypper 等。虽然说 AUR 里就有 zypper 和 libzypp（还都是 git 版本的，下载很耗时的），不过还是不怎么够呢。经过尝试，我发现需要以下包来运行这个模板：

Arch 里有的：augeas
Arch 里没的：libsolv-tools build rpm libzypp zypper

有的就直接安装啦。没有的，可以从它的软件源下载。x86_64 架构的在这里，那个 build 是 noarch 的，在这边。

把它们全部下回来，拿 7z 解压能够得到 cpio 档。然后建立个目录并 cd 过去，使用以下命令解开：

$ mkdir t
$ cd t
$ for f in ../*.cpio; do cpio -id < $f; done

这样就把它们解压到目录t里边的。我没有把它们解压到/，因为我不想弄乱我的系统，即使能够清理也是相当麻烦的，而且一不小心还可能删错文件。

所以，又该 Aufs 上场啦。当然在此之前还有件事：openSUSE 没有进行/usr合并。所以要手动去把bin、usr/sbin、sbin等目录下的文件移动到usr/bin下，然后删掉那些目录；把usr/lib64下的文件移动到usr/lib下，并删掉usr/lib64。

然后就可以将这个目录和我的 Arch Linux 合体啦：

1 2	`$` `mkdir` `root` `$` `sudo` `mount` `-t aufs -o br:$PWD/root=rw:$PWD/t=ro:/=ro aufs root`

但是！这样子的话，新装好的 openSUSE LXC 会在这个root目录里呢。所以要把外边真实的 LXC 目录给 bind mount 过来。我使用了自定义的 LXC 路径，所以是这样子的：

1 2	`$` `sudo` `mkdir` `-p root/ldata/media/temp/lxc` `$` `sudo` `mount` `--bind` `/ldata/media/temp/lxc` `root/ldata/media/temp/lxc`

然后编辑一下 openSUSE 的模板，搜索「http」把软件源的链接全部改到中国的镜像：

1	`$` `sudo` `vim root/usr/share/lxc/templates/lxc-opensuse`

我使用的是中科大的源镜像。

一切就绪，开始安装～

1	`$` `sudo` `chroot root` `/usr/bin/lxc-create` `--lxcpath=/ldata/media/temp/lxc` `-n opensuse -t opensuse`

耐心等待哦。最终安装完成根文件系统的大小是 333MiB。

安装完毕之后卸载刚刚挂载的那些东西：

1	`$` `sudo` `umount` `-R root`

然后编辑一下自动生成的 LXC 配置文件，比如属改改网络什么的。以下是我改过的配置文件：

# Template used to create this container: /usr/share/lxc/templates/lxc-opensuse
# Parameters passed to the template:
# For additional config options, please look at lxc.container.conf(5)
lxc.rootfs = /ldata/media/temp/lxc/opensuse/rootfs
lxc.utsname = opensuse
lxc.autodev=1
lxc.tty = 4
lxc.pts = 1024
lxc.mount.entry = run run tmpfs rw 0 0
lxc.mount.entry = tmp tmp tmpfs rw 0 0
lxc.mount.auto = proc sys
lxc.cap.drop = sys_module mac_admin mac_override mknod sys_time
lxc.kmsg = 0
 
# When using LXC with apparmor, uncomment the next line to run unconfined:
#lxc.aa_profile = unconfined
 
#networking
lxc.network.type = veth
lxc.network.link = br0
lxc.network.flags = up
lxc.network.ipv4 = 192.168.57.6
lxc.network.name = eth0
 
lxc.cgroup.devices.deny = a
# /dev/null and zero
lxc.cgroup.devices.allow = c 1:3 rwm
lxc.cgroup.devices.allow = c 1:5 rwm
# consoles
lxc.cgroup.devices.allow = c 5:1 rwm
lxc.cgroup.devices.allow = c 5:0 rwm
lxc.cgroup.devices.allow = c 4:0 rwm
lxc.cgroup.devices.allow = c 4:1 rwm
# /dev/{,u}random
lxc.cgroup.devices.allow = c 1:9 rwm
lxc.cgroup.devices.allow = c 1:8 rwm
lxc.cgroup.devices.allow = c 136:* rwm
lxc.cgroup.devices.allow = c 5:2 rwm
# rtc
lxc.cgroup.devices.allow = c 254:0 rm

当然别忘记修改 root 密码啦：

1	`$` `sudo` `chroot` `/ldata/media/temp/lxc/opensuse/rootfs` `/bin/passwd`

不过默认会有两个 getty 进程跑在 console 上边。要稍微修改一下。顺手把多余的 tty 上的也关掉好了：

1 2	`$` `sudo` `rm` `/ldata/media/temp/lxc/opensuse/rootfs/etc/systemd/system/getty.target.wants/getty@tty*` `$` `sudo` `mv` `/ldata/media/temp/lxc/opensuse/rootfs/etc/systemd/system/console-{shell,getty}.service`

然后就可以启动啦：

1	`$` `sudo` `lxc-start -n opensuse --lxcpath=/ldata/media/temp/lxc`

会默认启动 sshd，所以直接 ssh 连过去就可以用啦=w=

PS: 这个模板默认安装的是 openSUSE 12.3。记得自己改改或者装好后升级一下。

Category: Linux | Tags: lxc aufs linux Arch Linux openSuse

依云's Blog

Happy coding, happy living!

pacfiles: 高速的 pacman -F 替代品

缘起

效果对比

幕后

使用 bwrap 沙盒

Python 小版本升级是怎么 break 已有项目的

让 Arch Linux 系统和最新的镜像同步，从最快的镜像下载

Python 3.8 升级记录

永远不要 tail -f 管道

加固 systemd 服务

等连上互联网之后再来找我吧

使用 bcache 自制「混合硬盘」

在 Arch Linux 下安装 openSUSE LXC 虚拟机

随机文章

最新评论

最新留言

链接

计数器

存档

功能

RSS

权利声明

Happy coding, happy living!

缘起

效果对比

幕后

随机文章

标签云

最新评论

最新留言

链接

计数器

存档

功能

RSS

权利声明