新的 PaddleOCR 部署方案

2
9
2023

新的 PaddleOCR 部署方案

本文来自依云's Blog，转载请注明。

序

PaddleOCR 发布 2.6 版本了，支持 Python 3.10 啦，于是可以在 Arch Linux 上跑了～所以我决定再部署一次。

我之前跑 PaddleOCR 有两个方案，使用 chroot 加一大堆 systemd 的限制选项，以及使用 bwrap 和用户命名空间。

chroot 的方案总感觉不知道限制够了没。实际上当初那篇文章写完我就意识到这服务怎么用我的 uid 在跑啊，乱发信号好像还能把我的进程都杀掉的样子。另外这个 chroot 其实是我用来学习、研究和适配 Debian 用的，并不是专门跑这个服务的，感觉有点——怎么说呢——碍事？总之不太好。

bwrap 方案更干净一些，不过创建起来挺麻烦的（所以我才只部署了一次嘛）。不使用用户命名空间可能会简单一些，但那样就是用我的用户在跑了。

所以这次我决定试试方案，使用 systemd-nspawn。另外（再次）尝试了使用 NVIDIA GPU 的版本，把我电脑上闲得发慌的 GeForce 940MX 显卡给用上了。

过程

首先去 Arch 镜像里的 iso/latest/ 目录下载个 archlinux-bootstrap-x86_64.tar.gz 回来。在 /var/lib/machines 下创建个叫 paddleocr 的 btrfs 子卷 / zfs 文件系统 / 普通目录用来存放新的 rootfs。sudo bsdtar xf ...... -C /var/lib/machines/paddleocr 解压出来。记得一定要用 bsdtar 以避免丢失某些文件元信息（虽然我不知道那些信息有啥用但是有警告就是不爽嘛）。

然后就可以 systemd-nspawn -M paddleocr 拿到个 shell 了。这里边只安装了 base 和 arch-install-scripts。可以先修改 pacman 镜像然后 pacman -Syu python 滚一下顺便装上 Python。然后 useradd -s /bin/bash -m -U paddleocr 创建个跑 paddleocr 的用户。su - paddleocr 切过去，python -m venv venv 创建虚拟环境，然后进去按 PaddleOCR 的文档装就行了。装好运行起来没问题之后，写个 for 循环把所有支持的语种都识别一遍，以下载各语言的模型（当然你也可以只下载你想要的）。做好之后可以清一下缓存啥的。gdu 就挺好用的。

哦，以上是 CPU 版本的安装流程。GPU 版本的可没有这么简单。首先要把显卡设备传进这个 nspawn 里。创建 /etc/systemd/nspawn/paddleocr.nspawn 文件，然后里边写上：

[Exec]
ResolvConf=off
NoNewPrivileges=true
User=paddleocr

[Files]
Bind=/run/paddleocr
Bind=/var/cache/pacman/pkg

Bind=/dev/nvidia0
Bind=/dev/nvidiactl
Bind=/dev/nvidia-modeset
Bind=/dev/nvidia-uvm
Bind=/dev/nvidia-uvm-tools

[Network]
Private=true

哦，这里有挂载 pacman 缓存目录前边忘了说，不过这个不重要啦。这里指定了用户，但是可以在命令行上用 -u root 覆盖的，不影响进去维护。私有网络，也就是给它配置个网络命名空间，里边除了 lo 外啥网络接口都没有。那它怎么访问网络呢？它访问不了网络啦。所以要 bind mount 进去一个 /run/paddleocr，用于通信的 UNIX 域套接字将会放在这里。网络不通，走文件系统就好啦。

然后找台机器把 AUR 包 cuda-10.2 和 cudnn7-cuda10.2 打一下，但是不用安装。我们不搞 CUDA 开发，里边有一大堆东西都是不需要的。把需要的库复制进 rootfs 里去就行了。至于需要什么库？进那个虚拟环境的 Python 里，import paddle 然后 paddle.utils.run_check() 跑一下就知道了。复制库之后记得跑 ldconfig 啊。

PaddleOCR 能跑起来之后，就可以把我的服务丢进去跑啦。最终命令长这样：

sudo systemd-nspawn -M paddleocr --user=paddleocr /home/paddleocr/paddleocr-http --loglevel=warn -j 4

-j 参数是限制并发识别数的，避免过载 CPU 或者 GPU，并不是线程数。

跑起来之后，sudo setfacl -m u:$USER:rwx /run/paddleocr/http.sock 给自己授权，然后 curl 一下试试：

time curl -sS -F file=@a.png -F lang=zh-Hans --unix-socket /run/paddleocr/http.sock http://localhost:5174/api | jq .

对于小图片的话挺快的，不到一秒就能出结果。我使用 CPU 版本跑的话，会慢个近十倍的样子。顺便说一下，这是我对服务进行性能优化之后的结果。之前每张图都开新进程跑太慢了。大概是需要加载一大堆库，然后把模型上传到 GPU，每张图一进程的话 GPU 版本反而会明显慢于 CPU 版本。代价是服务会一直占用大约 2G 内存，即使你并没有在用。

系统挂起到内存或者休眠到磁盘时，内存里的内容是被保留了，但是 GPU 显存并没有，大概因此会报 cuda runtime error 999。这时候，只需要停止服务，卸载 nvidia_uvm 内核模块然后重新加载，再启动服务就可以恢复了。如果 nvidia_uvm 卸载不掉的话，那就没办法了，要么重启，要么改用 CPU 版本。NVIDIA 是有个把显存 dump 到内存里存起来的方案的，但是没必要啊，尤其是休眠到磁盘上的时候，多浪费时间啊。

文件下载

你可以直接用我做好的文件。通过本地的 IPFS 服务访问：

http://localhost:8080/ipns/k51qzi5uqu5di433o42zgqk2xck3y160q1hyvqbyyerd36au2pk0c2jw3hcqxx/

你也可以用别的网关来访问，都一样。如果 IPNS 解析失败的话，试试

http://localhost:8080/ipfs/QmNV31bApmgRcHCQjGufQ3zrFDaf6JBWvBt8pU2TA2Baz6/

我把用于跑服务、设置权限的配置文件打了个 Arch 软件包。nspawn 用的 rootfs 也打包上传了。PaddleOCR CPU 和 GPU 版本是分开的，所以有两个包。CPU 版本的 nspawn 叫 paddleocr-cpu，服务名也是。把 rootfs 解压到正确的地方之后，systemctl start paddleocr 或者 paddleocr-cpu 就好啦。用户需要加入 paddleocr 组才能访问 HTTP 套接字哦。

如果遇到CUDA error(803), system has unsupported display driver / cuda driver combination报错，请将系统当前的 libcuda.so.1 复制进 nspawn 里：

sudo cp /usr/lib/libcuda.so.1 /var/lib/machines/paddleocr/usr/local/lib

另外服务配置文件放到 GitHub 上了：paddleocr-service。

Category: Linux | Tags: linux systemd OCR | Read Count: 14139

[回复]

imlonghao 说:
Feb 10, 2023 06:15:21 PM

IPFS 地址溢出界面了

[回复]

依云说:
Feb 11, 2023 10:57:51 AM

能复制到就好啦～

[回复]

陈磊说:
Feb 13, 2023 10:53:28 AM

依云，你好。我把自己做的从零生成 Arch Linux 映像和依靠核心命令实现的沙盒环境，打包放到了百度网盘，感兴趣的话可以看看。https://zhuanlan.zhihu.com/p/602371905

[回复]

GalaxySnail 说:
Feb 14, 2023 12:21:13 AM

竟然会有 GNU tar 不支持的文件元信息吗（吃惊），之前看过一篇2018年一位 gentoo 维护者的文章（https://mgorny.pl/articles/portability-of-tar-features.html），看上去 GNU tar 支持的特性是非常广泛的。
关于休眠唤醒的问题，能不能在休眠之前把服务关掉、在唤醒之后再启动服务来解决这个问题呢？我在 archwiki 的 Power_management 一节看到 systemd 有个唤醒/睡眠的 hook，可以做到这一点，这样应该就不用重新加载内核模块了吧

[回复]

依云说:
Feb 14, 2023 12:09:08 PM

就是那个 SCHILY.fflags 啦。

我已经在休眠之前关服务、唤醒之后再重新加载模块并启动服务了。然而现在时不时遇到模块被使用、卸载不掉的情况，这时候 CUDA 也会报错或者干脆就找不到设备。

[回复]

Colin 说:
Feb 18, 2023 01:31:34 PM

这里有很多已经打包好的 linux 发行版的镜像可以直接用：https://nspawn.org/

依云's Blog

Happy coding, happy living!