依云's Blog

3
5
2023

Linux 上的字体配置与故障排除

常见汉字字体

电脑系统要显示字，首先得有字体。现在 Linux 上常用的、在维护的开源中文字体就一套，同时被 Noto 和思源两个项目收录。Noto 系列字体是 Google 主导的，名字的含义是「没有豆腐」（no tofu），因为缺字时显示的方框或者方框被叫作「tofu」。思源系列字体是 Adobe 主导的。其中汉字部分被称为「思源黑体」和「思源宋体」，是由这两家公司共同开发的，两个字体系列的汉字部分是一样的。

Noto 字体在 Arch Linux 上位于以下软件包中：

noto-fonts: 大部分文字的常见样式，不包含汉字
noto-fonts-cjk: 汉字部分
noto-fonts-emoji: 彩色的表情符号字体
noto-fonts-extra: 提供额外的字重和宽度变种

Noto 系列字族名只支持英文，命名规则是 Noto + Sans 或 Serif + 文字名称。其中汉字部分叫 Noto Sans/Serif CJK SC/TC/HK/JP/KR，最后一个词是地区变种。

思源系列则有：

adobe-source-sans-fonts: 无衬线字体，不含汉字。字族名叫 Source Sans 3 和 Source Sans Pro，以及带字重的变体，加上 Source Sans 3 VF
adobe-source-serif-fonts: 衬线字体，不含汉字。字族名叫 Source Code Pro，以及带字重的变体
adobe-source-code-pro-fonts: 等宽字体，不含汉字。字族名叫 Source Code Pro，以及带字重的变体，加上 Source Code Variable。
adobe-source-han-{sans,serif,mono}-{cn,hk,jp,kr,tw}-fonts: 五个地区的汉字之黑体、宋体和等宽版本
adobe-source-han-{sans,serif,mono}-otc-fonts: 所有地区合体了的汉字之黑体、宋体和等宽版本

其中等宽版本的中文字体位于 [archlinuxcn] 仓库中。

思源汉字字体的字族名有两种，「独立包装」的版本（非 OTC 版本），是「Source Han Sans/Serif」或本地化名称、空格、地区代码（CN/HK/TW/JP/KR）。比如「思源黑体 CN」、「源ノ角ゴシック JP」等。也有带字重的别名。

而全部打包的 OTC 版本，字族名是本地化名称或者英文的「Source Han Sans/Serif」空格再加上「HC/TC/HC/K」变种代码。如果没有变种代码，则是日文变种。为了区分，香港繁体的版本附带「香港」字样，比如黑体叫「思源黑體香港」。这些字体也有不同字重的别名。另外有个半宽的版本，是在字族名的变种代码前加「HW」字样，仅有少数几个字符是半宽的。

OTC 版本有趣的地方在于，对于大多数软件来说，不管你叫它的哪个地区的名字，它都会以设定的语种来显示。比如网页声明语种为日文（<html lang=ja>），那么不管字体指定为「源ノ角ゴシック」还是「思源黑体」或者「본고딕」，它都会「门上插刀、直字拐弯、天顶加盖、船顶漏雨」。所以用这个字体的话，不妨一律写「Source Han Sans」，然后加好语种标记。我知道的唯一例外是 mpv 的 ass 字幕文件，里边指定本地化名称的话，会使用那个语种的变体显示。

早些年还没有 Noto 和思源的时候，Linux 系统上通常使用文泉驿正黑或者文泉驿微米黑。后者是基于 Android 系统上的 Droid Sans Fallback 字体，体积较小。再之前是文鼎系列字体，也就是名字「AR PL」开头、包名叫 ttf-arphic-{uming,ukai} 的那些。

字体的属性

字体有很多属性，常用的有字族（family）、倾斜（slant）、字重（weight）。后两者合一起叫样式（style）。

字族就是它的名字啦。常见的指代字体的方式除了字族之外还有 Postscript 名，它不含空格、使用短横线将样式附加在名称之后，比如「DejaVuSans-BoldOblique」。后者是 CSS @font-face 规则中使用 local 时唯一指定样式的方法（除非该字体把样式也写到了字族名里）。

倾斜就是斜不斜，英文叫「Roman」「Italic」或者「Oblique」，Italic 是专门的斜体写法（更接近手写样式）， Oblique 是把常规写法倾斜一下完事。

字重就更简单了，就是笔划的粗细。常见的有 Regular、Normal、Medium、Bold、Semibold、Black、Thin、Light、Extralight 等。

详细信息可以 man 5 fonts-conf 查询。

通用字族名

很多时候，程序并不在乎用户具体使用的是哪款字体，像很多网站的 CSS 那样把各个平台的常见字体全部列出来太傻了，又容易出问题。所以，人们发明了「通用字族名」，也就是 sans-serif (sans)、serif 和 monospace (mono) 这些。中文分别叫无衬线字体、衬线字体和等宽字体。但是中文字体不讲衬线不衬线的，而是叫「黑体」和「宋体」（有些地区叫「明体」）。黑体常用于屏幕显示的正文，而宋体常用于印刷文本的正文。

另外，中文没有斜体。英文使用斜体的场合，中文通常是使用仿宋或者楷体。中文本也没有粗体。传统上，强调的时候，中文使用着重号，也就是在字的下方或者右方加点，像这样子。

最近有一个新加的通用字族名叫作「emoji」。Pango 渲染表情符号的文本时，会自动使用 emoji 字体。但是 Qt 尚不支持，导致有时会出问题，而将 emoji 字体排到常规字体之前的做法，又会导致数字和空格显示为全角。火狐自带了一个 SVG 格式的 emoji 字体，会自动使用。很多软件（比如 Telegram）也会使用图片来取代 emoji 字符。

CSS 4 又加了一套 ui- 开头的字族名，但是除了 Safari 没浏览器支持。fontconfig 倒是可以通过配置来支持上，但是由于火狐的一个 bug 导致 ui-sans-serif 无效。

fontconfig 配置

大部分 Linux 桌面软件都或多或少地使用 fontconfig 来获取字体配置信息。其中 Pango（GTK 使用的文字渲染库）的支持是最好的。很多简陋的图形界面库则只用来读取默认字体，可能完全不支持字体回落，造成部分文字明明有字体却显示为「豆腐」。

了解了通用字族名，我们就可以为它们指定我们喜欢的字体啦。在 ~/.config/fontconfig/fonts.conf 里为每一个通用字族名像这样写即可：

  <match target="pattern">
    <test qual="any" name="family">
      <string>sans-serif</string>
    </test>
    <edit name="family" mode="prepend" binding="strong">
      <string>DejaVu Sans</string>
      <string>文泉驿正黑</string>
      <string>Twemoji</string>
      <string>Font Awesome 6 Free</string>
      <string>Font Awesome 6 Brands</string>
      <string>Source Han Sans</string>
    </edit>
  </match>

因为我并没有完全采用思源字体来显示汉字，所以我还是为不同语言和地区变种分别匹配了不同的字体。我完整的配置文件见：https://github.com/lilydjwg/dotconfig/tree/master/fontconfig。其中，web-ui-fonts.conf 文件用于提供 CSS 4 新增的字族名，而 source-han-for-noto-cjk.conf 则使用思源系列字体来代替 Noto CJK 系列字体。

查看浏览器使用的字体

排查字体问题时，一个常见的要知道的事实是，软件究竟在用什么字体来显示这些文本？想知道这个通常很难，但是对浏览器来说却很简单。所以字体匹配问题首先看浏览器能不能复现。

火狐浏览器，对着有疑问的字点右键，选择「检查」（也可以按 Q 键），然后看弹出的开发者工具右边的「字体」选项卡即可。鼠标悬停到下方灰色的字体名上时还能将使用该字体的字高亮显示。

Google Chrome 浏览器及其变种类似，对着有疑问的字点右键，选择「检查」（也可以按 N 键），然后看弹出的开发者工具右边的「计算样式」选项卡，拖动到最下面，可以看到使用的字体名以及有多少个字形。

至于这个字体是怎么选上的，可以切换到「规则」（火狐）或者「样式」（Google Chrome）选项卡来看 CSS 规则。搜索「font-family」看看具体被应用上的规则是哪一条。通常这里会写上一大排字体名。火狐会将正在使用的那个加上下划线，但是有时候不准确（比如该 HTML 元素使用了多种字体）。更好的除错方法是，从头到尾一个个删字体，删到哪一个时网页上的字体变动了，就说明在使用的是哪一个。我通过这种方式找出了好些我学生时代不懂事从 Windows 下复制过来的字体导致的问题。

Google Chrome 默认的字体比较奇怪，是「Times New Roman」、「Arial」和「Monospace」。见《Google Chrome 中的字体设置》一文。

Qt

见 https://z.sh/qtfontbugs。其中最著名的 bug 是 QTBUG-80434 (https://z.sh/434)。

小技巧

使用 gucharmap 软件可以检查所有字符使用指定的字体时的渲染效果，以及它回落到什么字体上了。找到要查看的字符，然后对着它按住右键即可。

使用 fc-match -s NAME:charset=HHHH 可以查看针对指定字符的字体优先顺序，包含这个字符的字体会优先。如果不加 -s 就是看指定的模式会匹配上的字体了。其中 HHHH 是该字符的 Unicode 码点之十六进制值。如 fc-match :charset=7684 查看默认字体下「的」字会用什么字体，而 fc-match serif:charset=7684:lang=ja 查看在语种为日文的时候，使用 serif 字族名会使用哪个字体来显示「的」字。使用 fc-list :charset=HHHH 则是查看包含该字符的所有字体。

参考资料

Category: 中文支持 | Tags: linux 字体中文支持

8
8
2022

Google Chrome 中的字体设置

Google Chrome 是我的备用浏览器，主要用于对比和检查网页的渲染效果，以及某些网页在火狐上可能不太正常，就用 Google Chrome 试试。

但 Google Chrome 有个非常令人恼火的问题：默认字体实在太难受了！

如果没有指明字体，那么 Google Chrome 默认使用 Times New Roman 字体。这是我十年前从 Windows 那边拷过来的字体，看上去细细软软的，很复古，不太适合屏幕显示。屏幕显示一般使用无衬线字体，但 Google Chrome 默认是衬线字体。好吧，那网页要是指明要 sans-serif 字体呢？Google Chrome 这次看上了 Arial，同样是一款古老的、来自于 Windows 的字体。

行吧……反正我也不是多喜欢这两字体，就全部删掉好了！结果，呃，「自定义」？？

实际上它们分别是「Liberation Serif」和「Liberation Sans」字体。这是我的系统上 fc-match「Times New Roman」和「Arial」给出的字体，由 ttf-liberation 包提供，google-chrome 包依赖（看 AUR 上的评论，这是因为 Google Chrome 的 PDF 渲染需要这个字体）。

Google Chrome 就是这么喜欢 Times New Roman 和 Arial，系统上不安装它也要找个替代品来用，就是不听用户通过 fontconfig 设置的默认字体。用户要想 Google Chrome 听点话，需要在「设置」->「外观」->「自定义字体」里像这样设置一下：

而火狐的话，用户不需要在这种犄角旮旯里设置：

可惜大部分用户都在用 Google Chrome 或其变种，所以制作网页上还是得手动指定一些现代点的字体。

Category: Linux | Tags: 字体 Google Chrome

3
8
2022

Qt 的字体渲染问题

GUI 程序我现在依然倾向于 GTK，因为虽然 Qt 拥有良好的跨平台性，但可能是太注重跨平台性了，在 Linux 平台上反而有一些水土不服的问题。

字体太多，支持太少

你可能觉得，系统上字体太少，所以经常会遇到不常见的字符无法显示的情况。然而对于 Qt 来说，字体越多，反而越容易遇到个别字符不能显示的情况。

这是我的 /etc/fonts/conf.d/66-qt.conf 中的一段。因为顺序的原因，我只能放到 /etc 下。除了针对 sans-serif 配置外，我也有同样的配置应用于 serif 和 monospace。

<fontconfig>
  <!-- Adjust font order for Qt applications -->
  <alias>
    <family>sans-serif</family>
    <prefer>
      <!-- 格拉哥里字母：Ⰽⱁⱀⱄⱅⰰⱀⱅⰹⱀ Ⰹⱍⰹⰳⱁⰲ -->
      <family>Noto Sans Glagolitic</family>
      <!-- 爪哇文：꧁   ꧂ -->
      <family>Noto Sans Javanese</family>
      <!-- 西夏文：𗷲𗒅 -->
      <family>Noto Serif Tangut</family>
      <!-- 埃及象形文字：𓁹 -->
      <family>Noto Sans Egyptian Hieroglyphs</family>
      <!-- 苏美尔楔形文字：𒆠𒂗𒂠 -->
      <family>Noto Sans Cuneiform</family>
      <!-- 中日韩统一表意文字扩展 C：𫚥 -->
      <family>HanaMinB</family>
      <!-- 拉让文：ꥃ -->
      <family>Noto Sans Rejang</family>
      <!-- 越南傣文：ꪀꪑ -->
      <family>Noto Sans Tai Viet</family>
      <!-- 切罗基文：ꮳꮧꮢ ᨣ -->
      <family>Noto Sans Cherokee</family>
      <!-- 老傣仂文：ᨣ -->
      <family>Noto Sans Tai Tham</family>
      <!-- 安纳托利亚象形文字：𔘓 -->
      <family>Noto Sans Anatolian Hieroglyphs</family>
      <!-- 马姆穆文补充：𖤍  -->
      <family>Noto Sans Bamum</family>
      <!-- 图标字体（PUA）： -->
      <family>OperatorMonoSSmLig Nerd Font</family>
      <!-- 巴塔克文：ᯤ -->
      <family>Noto Sans Batak</family>
      <!-- 古北欧文：ᛋᛖᚱᚣᚨᛚᚳᚨᚾᛞᛚᛖ -->
      <family>Noto Sans Runic</family>
    </prefer>
  </alias>
</fontconfig>

这个配置的意思是，把这些字体的优先级提高一些。当使用 fontconfig 的程序要显示字符的时候，它会指定一个模式，匹配到一个字体列表。渲染文字的时候，就可以遍历这个列表，直到找到可以显示这个字符的字体，所以一般来说，只要系统上装了对应字符的字体，它就能显示出来。

但是 Qt 额外地需要这个配置，因为 Qt 只会检查列表中的前255项。而世界上的不同文字那么多，所以想要能够显示它们，就得有一堆字体。比如 noto-fonts 这个包里就有614个字体文件，远超 Qt 支持的数量。总有些奇奇怪怪的文字被网友用来当颜文字，或者挂在名字上彰显个性。不这么调整一下，Qt 遇到了就只能「吃豆腐」了。

空心豆腐

当一个字符显示不出来的时候，那么怎么显示好呢？一般会显示成某种方框。Pango 和火狐会将该字符的 Unicode 码点以十六进制的形式显示在方框里边，这样虽然不知道这个字符长什么样子，但至少知道它是哪个字符，也知道多块豆腐是不是同一字符，在不能复制字符本身的时候很有用。比如当它出现在求助者的截图里的时候，比如当它出现在不能复制的地方的时候。

然而 Qt 不这样做。管你什么字符，Qt 统一显示为空心方框。从视觉上完全无法知晓它到底是什么字符，要是复制不到的话，就别想弄明白你缺什么字体了。

PS: Matrix 客户端 fluffychat 的 Web 版，使用的是 Fluffy 图形界面库，即使在 Web 版，文字渲染依然完全是自己做的。不管浏览器的设置不管系统的设置，豆腐块是带叉号的方框，还不能选中，十分讨厌。

非 BMP 字符

所有使用 UTF-16 的平台（Java、JavaScript、Windows、Qt），外加 MySQL 容易遇到的一个问题：非 BMP 字符（也就是那些 U+FFFF 之后的字符）会被当作是两个字符处理。随着 emoji 的流行，大家应该都修了不少。然而，Qt 在展示非 BMP 字符的时候，你可以选中半个字符。如果不小心漏掉半个的话，复制出来的半个字符就会变成问号（还好不是 GBK 时代那样弄乱后续所有字符）。

font features

一些字体可以通过 fontconfig 设置 fontfeatures 属性来启用（或者禁用）一些特性，比如连字，带斜杠的 0，小型大写字母，居中的中文标点，等等。Pango 很早就支持了，火狐最近也支持了，但 Qt 那边依旧没啥动静。（感谢 Coelacanthus 的评论。）

Category: Linux | Tags: linux 字体 Qt

7
30
2013

对比不同字体中的同一字符

有人在 openSUSE 中文论坛询问他的输入法打出的「妩媚」的「妩」字为什么显示成「女」+「元」。怀疑是字体的问题，于是空闲时用好友写的 python-fontconfig 配合 Pillow （PIL 的一个 fork）写了个脚本，使用系统上所有包含这个「妩」字的字体来显示这个字，看看到底是哪些字体有问题。

（更新后的）脚本如下：

Google Chrome / Chromium 用户请注意：如果复制得到的代码中含有不间断空格（0xa0），请手动替换下。

#!/usr/bin/env python3
# vim:fileencoding=utf-8

from PIL import Image, ImageDraw, ImageFont
import fontconfig

ch = '妩'
def get_fonts():
  ret = []
  for f in fontconfig.query():
    f = fontconfig.FcFont(f)
    if f.has_char(ch):
      ret.append((f.file, f.bestname))
  return ret

w, h = 800, 20000
image = Image.new('RGB', (w, h), 'white')
draw = ImageDraw.Draw(image)
pos = 0
w = 0
strs = ch
for fontfile, fontname in get_fonts():
  font = ImageFont.truetype(fontfile, 24)
  s = '%s: %s' % (fontname, strs)
  font_width, font_height = font.getsize(s)
  w = max((font_width, w))
  draw.text((10, pos), s, font=font, fill='black')
  pos += font_height
  h = pos

image = image.crop((0, 0, w+10, h))
image.save('fonts.png')

寻找字体，然后渲染到当前目录下的fonts.png文件中。寻找字体的过程挺花时间的，要耐心等待。最后结果如下：

我这里，文泉驿微米黑、~~方正魏碑~~、某个 Droid Sans Fallback 字体中「妩」字的字形不对。（我这里有三个字体文件都叫「Droid Sans Fallback」……）>

Category: python | Tags: python 字体 fontconfig 中文支持

依云's Blog

Happy coding, happy living!

Linux 上的字体配置与故障排除

常见汉字字体

字体的属性

通用字族名

fontconfig 配置

查看浏览器使用的字体

Qt

小技巧

参考资料

Google Chrome 中的字体设置

Qt 的字体渲染问题

字体太多，支持太少

空心豆腐

非 BMP 字符

font features

对比不同字体中的同一字符

随机文章

最新评论

最新留言

链接

计数器

存档

功能

RSS

权利声明

依云's Blog

Happy coding, happy living!

Linux 上的字体配置与故障排除

常见汉字字体

字体的属性

通用字族名

fontconfig 配置

查看浏览器使用的字体

Qt

小技巧

参考资料

Google Chrome 中的字体设置

Qt 的字体渲染问题

字体太多，支持太少

空心豆腐

非 BMP 字符

font features

对比不同字体中的同一字符

随机文章

标签云

最新评论

最新留言

链接

计数器

存档

功能

RSS

权利声明