中文支持 - 依云's Blog

5
12
2026

自定义系统默认中文字体

一开始使用Linux系统的时候，并没有多少自由开源的中文字体。那时候几乎所有人的选择都是文泉驿正黑。我就一直用啊用了好多年，直到后来截图时被网友说该换字体了，我才知道原来文泉驿项目已经停止很久了，网站上的新闻截止于2008年——都快20年啦。

文泉驿正黑的字形比较「旧时代」——以屏幕清晰度为优先，由于当时的屏幕普遍dpi低，笔画迁就像素风格，所以比较丑。另外也有些bug，比如「撨䑾詺㘃㞈㟯㫥」这几个字会有一片漆黑的区域。

文泉驿正黑看起来是这样的。注意截图中只有除标题外的中文部分用的是文泉驿正黑字体。

2014年，Google联合Adobe发布了思源黑体和Noto Sans CJK字体——这两款字体的汉字部分是相同的，区别只在于思源黑体会根据文本的区域设置来自动选择字形（通常不管使用哪个语言的字族名来指定），而Noto Sans CJK字族名只有英文版本，并且不同的字族名后缀会选择不同的地区字形。

我在2024年终于决定切换到思源黑体试试。它长这样：

图中的日文部分也是使用的思源黑体，只不过是日文字形。标题则使用的是思源宋体。读者可以在图片上点「右键」然后新建标签页打开图像，然后来回切换着对比。

可以看出，思源黑体是比文泉驿正黑好看多啦。而且思源字体有粗体版本，文泉驿正黑是没有粗体的，只有合成出来的所谓「伪粗体」。

但是，你有没有发现有什么地方不对劲？注意看大标题下方那行字，「条目」和「阅读」下边的装饰线与该行下方的分隔线有一段距离，而「大陆简体」和「工具」两处字偏低。事实上，思源黑体的问题远不止这些。思源黑体文字上方空出来的空间比下方多不少，造成行高太高、终端里文字不居中等各种问题。

（这个图片是使用命令pango-view --dpi=1024 --font=思源黑体 --annotate=glyph,layout,baselines -t A测试中文Test -o out.png生成的。）

因此我用了几天就换回文泉驿正黑了，但是把思源黑体作为部分网页字体在用（主要用于非简体中文内容，以及通过stylus指定的特定几个网站）。

最近，oldherl说更纱黑体修了行高的问题。于是我又试了几天这个基于思源黑体的字体。它的效果是这样的：

行高的问题确实解决了！但是——又要「但是」了——它的字怎么矮胖矮胖的？是我没看习惯的原因吗？于是我使用了几天，最后并没有习惯，反而是和思源黑体一对照，发现确实是许多字都变矮了一点。

于是我只好又换回已经用习惯了的文泉驿正黑。

诶等等！既然更纱黑体能修行高，我为什么不行？因为我不会，可是，今非昔比了呀——Gemini，给我来个脚本！

于是就有了这么个脚本——当然这个脚本是我改过的最终版本了。

#!/usr/bin/python3

from io import BytesIO

from fontTools.ttLib import TTCollection, TTFont

def adjust_font(font):
    target_ascent = 1025
    target_descent = -265
    
    # 修改 hhea 表 (macOS/Pango 渲染常用)
    font['hhea'].ascent = target_ascent
    font['hhea'].descent = target_descent
    font['hhea'].lineGap = 92

    # 修改 OS/2 表 (Windows/Linux 合规性)
    font['OS/2'].sTypoAscender = target_ascent
    font['OS/2'].sTypoDescender = target_descent
    font['OS/2'].sTypoLineGap = 92
    # usWin 参数决定了红线（剪切区域），设为相同值可消除额外间距
    font['OS/2'].usWinAscent = target_ascent
    font['OS/2'].usWinDescent = abs(target_descent)

    # 2. 修改 Font Family 名称
    name_table = font['name']
    for record in name_table.names:
        name_str = record.toUnicode()
        new_record_str = name_str.replace('Source Han', 'Lily Han') \
                .replace('思源', '百合') \
                .replace('源ノ角ゴシック', '百合ノ角ゴシック') \
                .replace('본고딕', '백합고딕') \
                .replace('SourceHan', 'LilyHan')
        # 针对不同 ID 进行替换
        # ID 1: Family Name, ID 4: Full Name, ID 6: PostScript Name 等
        if name_str != new_record_str:
            name_table.setName(new_record_str, record.nameID, record.platformID, record.platEncID, record.langID)

    # Medium as Semibold
    if font['OS/2'].usWeightClass == 500:
        # save then read to copy the font without referencing existing data structures
        buf = BytesIO()
        font.save(buf)
        buf.seek(0)
        sb_font = TTFont(buf)

        sb_font['OS/2'].usWeightClass = 600

        for record in sb_font['name'].names:
            name_str = record.toUnicode()
            if "Medium" in name_str:
                new_name = name_str.replace("Medium", "Semibold")
                record.string = new_name.encode(record.getEncoding())

        cff = sb_font['CFF '].cff

        for i in range(len(cff.fontNames)):
            if "Medium" in cff.fontNames[i]:
                cff.fontNames[i] = cff.fontNames[i].replace("Medium", "Semibold")
        
        # 修改 TopDict 内部的名称
        for topDict in cff.topDictIndex:
            for attr in ['FullName', 'FamilyName', 'Weight']:
                if val := getattr(topDict, attr):
                    if isinstance(val, str) and "Medium" in val:
                        setattr(topDict, attr, val.replace("Medium", "Semibold"))

        return sb_font

def main(input_ttc, output_ttc):
    ttc = TTCollection(input_ttc)
    new_fonts = list(ttc.fonts)
    for font in ttc.fonts:
        newfont = adjust_font(font)
        if newfont:
            new_fonts.append(newfont)
    ttc.fonts = new_fonts
    ttc.save(output_ttc)
    print(f"成功保存至: {output_ttc}")

if __name__ == '__main__':
    import nicelogger
    nicelogger.enable_pretty_logging('DEBUG')
    input_ttc = "SourceHanSans.ttc"
    output_ttc = "LilyHanSans.otc"
    main(input_ttc, output_ttc)

脚本使用fonttools这个Python库，把ascent、descent和lineGap这三个参数改成和文泉驿正黑一样的了。之所以要照着文泉驿正黑来改，是因为我的终端最大化之后，使用13pt字号差不多刚好填满35行（只空出来两行像素）。而使用别的参数，我调整字号好久，都会空出来小半到大半甚至接近一行文字的高度。

另外，这个脚本运行起来非常耗资源：它保存的时候会重新计算每一个字形，持续占用一个CPU核心长达六分多钟，内存只分配不释放，最终用掉接近20GiB。倒是生成的文件差异不大，用rsync很快就能同步回来。

最终效果图：

可惜的是思源黑体只有粗体和Medium，不像更纱黑体那样有半粗（Semibold）版本。思源黑体的粗体挺粗的。

由于我在使用思源黑体时遇到的问题都是在UI部分，而这里又不需要用到宋体，所以我没有去改思源宋体，其它地区的字形也还是用的原本的思源系列。

如果有人想试试我生成的这个字体的话，在这里下载（112 MiB）。

2026年05月13日更新：更新了脚本和字体文件。现在把Medium复制一份然后改叫Semibold了，因此有了半粗字重，在用到的地方会更接近设计者的意图，也看着更舒服。

Category: 中文支持 | Tags: 字体中文支持

7
28
2024

fcitx5 码表同步方案

Category: 中文支持 | Tags: linux fcitx 中文支持

3
5
2023

常见汉字字体

电脑系统要显示字，首先得有字体。现在 Linux 上常用的、在维护的开源中文字体就一套，同时被 Noto 和思源两个项目收录。Noto 系列字体是 Google 主导的，名字的含义是「没有豆腐」（no tofu），因为缺字时显示的方框或者方框被叫作「tofu」。思源系列字体是 Adobe 主导的。其中汉字部分被称为「思源黑体」和「思源宋体」，是由这两家公司共同开发的，两个字体系列的汉字部分是一样的。

Noto 字体在 Arch Linux 上位于以下软件包中：

noto-fonts: 大部分文字的常见样式，不包含汉字
noto-fonts-cjk: 汉字部分
noto-fonts-emoji: 彩色的表情符号字体
noto-fonts-extra: 提供额外的字重和宽度变种

Noto 系列字族名只支持英文，命名规则是 Noto + Sans 或 Serif + 文字名称。其中汉字部分叫 Noto Sans/Serif CJK SC/TC/HK/JP/KR，最后一个词是地区变种。

思源系列则有：

adobe-source-sans-fonts: 无衬线字体，不含汉字。字族名叫 Source Sans 3 和 Source Sans Pro，以及带字重的变体，加上 Source Sans 3 VF
adobe-source-serif-fonts: 衬线字体，不含汉字。字族名叫 Source Code Pro，以及带字重的变体
adobe-source-code-pro-fonts: 等宽字体，不含汉字。字族名叫 Source Code Pro，以及带字重的变体，加上 Source Code Variable。
adobe-source-han-{sans,serif,mono}-{cn,hk,jp,kr,tw}-fonts: 五个地区的汉字之黑体、宋体和等宽版本
adobe-source-han-{sans,serif,mono}-otc-fonts: 所有地区合体了的汉字之黑体、宋体和等宽版本

其中等宽版本的中文字体位于 [archlinuxcn] 仓库中。

思源汉字字体的字族名有两种，「独立包装」的版本（非 OTC 版本），是「Source Han Sans/Serif」或本地化名称、空格、地区代码（CN/HK/TW/JP/KR）。比如「思源黑体 CN」、「源ノ角ゴシック JP」等。也有带字重的别名。

而全部打包的 OTC 版本，字族名是本地化名称或者英文的「Source Han Sans/Serif」空格再加上「HC/TC/HC/K」变种代码。如果没有变种代码，则是日文变种。为了区分，香港繁体的版本附带「香港」字样，比如黑体叫「思源黑體香港」。这些字体也有不同字重的别名。另外有个半宽的版本，是在字族名的变种代码前加「HW」字样，仅有少数几个字符是半宽的。

OTC 版本有趣的地方在于，对于大多数软件来说，不管你叫它的哪个地区的名字，它都会以设定的语种来显示。比如网页声明语种为日文（<html lang=ja>），那么不管字体指定为「源ノ角ゴシック」还是「思源黑体」或者「본고딕」，它都会「门上插刀、直字拐弯、天顶加盖、船顶漏雨」。所以用这个字体的话，不妨一律写「Source Han Sans」，然后加好语种标记。我知道的唯一例外是 mpv 的 ass 字幕文件，里边指定本地化名称的话，会使用那个语种的变体显示。

早些年还没有 Noto 和思源的时候，Linux 系统上通常使用文泉驿正黑或者文泉驿微米黑。后者是基于 Android 系统上的 Droid Sans Fallback 字体，体积较小。再之前是文鼎系列字体，也就是名字「AR PL」开头、包名叫 ttf-arphic-{uming,ukai} 的那些。

字体的属性

字体有很多属性，常用的有字族（family）、倾斜（slant）、字重（weight）。后两者合一起叫样式（style）。

字族就是它的名字啦。常见的指代字体的方式除了字族之外还有 Postscript 名，它不含空格、使用短横线将样式附加在名称之后，比如「DejaVuSans-BoldOblique」。后者是 CSS @font-face 规则中使用 local 时唯一指定样式的方法（除非该字体把样式也写到了字族名里）。

倾斜就是斜不斜，英文叫「Roman」「Italic」或者「Oblique」，Italic 是专门的斜体写法（更接近手写样式）， Oblique 是把常规写法倾斜一下完事。

字重就更简单了，就是笔划的粗细。常见的有 Regular、Normal、Medium、Bold、Semibold、Black、Thin、Light、Extralight 等。

详细信息可以 man 5 fonts-conf 查询。

通用字族名

很多时候，程序并不在乎用户具体使用的是哪款字体，像很多网站的 CSS 那样把各个平台的常见字体全部列出来太傻了，又容易出问题。所以，人们发明了「通用字族名」，也就是 sans-serif (sans)、serif 和 monospace (mono) 这些。中文分别叫无衬线字体、衬线字体和等宽字体。但是中文字体不讲衬线不衬线的，而是叫「黑体」和「宋体」（有些地区叫「明体」）。黑体常用于屏幕显示的正文，而宋体常用于印刷文本的正文。

另外，中文没有斜体。英文使用斜体的场合，中文通常是使用仿宋或者楷体。中文本也没有粗体。传统上，强调的时候，中文使用着重号，也就是在字的下方或者右方加点，像这样子（如果你看到的着重号在文字上方，那是因为你用的 Chrome/Chromium 浏览器不听页面指示，执意将它作为日文处理了）。

最近有一个新加的通用字族名叫作「emoji」。Pango 渲染表情符号的文本时，会自动使用 emoji 字体。但是 Qt 尚不支持，导致有时会出问题，而将 emoji 字体排到常规字体之前的做法，又会导致数字和空格显示为全角。火狐自带了一个 SVG 格式的 emoji 字体，会自动使用。很多软件（比如 Telegram）也会使用图片来取代 emoji 字符。

CSS 4 又加了一套 ui- 开头的字族名，但是除了 Safari 没浏览器支持。fontconfig 倒是可以通过配置来支持上，但是由于火狐的一个 bug 导致 ui-sans-serif 无效。

fontconfig 配置

大部分 Linux 桌面软件都或多或少地使用 fontconfig 来获取字体配置信息。其中 Pango（GTK 使用的文字渲染库）的支持是最好的。很多简陋的图形界面库则只用来读取默认字体，可能完全不支持字体回落，造成部分文字明明有字体却显示为「豆腐」。

了解了通用字族名，我们就可以为它们指定我们喜欢的字体啦。在 ~/.config/fontconfig/fonts.conf 里为每一个通用字族名像这样写即可：

  <match target="pattern">
    <test qual="any" name="family">
      <string>sans-serif</string>
    </test>
    <edit name="family" mode="prepend" binding="strong">
      <string>DejaVu Sans</string>
      <string>文泉驿正黑</string>
      <string>Twemoji</string>
      <string>Font Awesome 6 Free</string>
      <string>Font Awesome 6 Brands</string>
      <string>Source Han Sans</string>
    </edit>
  </match>

因为我并没有完全采用思源字体来显示汉字，所以我还是为不同语言和地区变种分别匹配了不同的字体。我完整的配置文件见：https://github.com/lilydjwg/dotconfig/tree/master/fontconfig。其中，web-ui-fonts.conf 文件用于提供 CSS 4 新增的字族名，而 source-han-for-noto-cjk.conf 则使用思源系列字体来代替 Noto CJK 系列字体。

查看浏览器使用的字体

排查字体问题时，一个常见的要知道的事实是，软件究竟在用什么字体来显示这些文本？想知道这个通常很难，但是对浏览器来说却很简单。所以字体匹配问题首先看浏览器能不能复现。

火狐浏览器，对着有疑问的字点右键，选择「检查」（也可以按 Q 键），然后看弹出的开发者工具右边的「字体」选项卡即可。鼠标悬停到下方灰色的字体名上时还能将使用该字体的字高亮显示。

Google Chrome 浏览器及其变种类似，对着有疑问的字点右键，选择「检查」（也可以按 N 键），然后看弹出的开发者工具右边的「计算样式」选项卡，拖动到最下面，可以看到使用的字体名以及有多少个字形。

至于这个字体是怎么选上的，可以切换到「规则」（火狐）或者「样式」（Google Chrome）选项卡来看 CSS 规则。搜索「font-family」看看具体被应用上的规则是哪一条。通常这里会写上一大排字体名。火狐会将正在使用的那个加上下划线，但是有时候不准确（比如该 HTML 元素使用了多种字体）。更好的除错方法是，从头到尾一个个删字体，删到哪一个时网页上的字体变动了，就说明在使用的是哪一个。我通过这种方式找出了好些我学生时代不懂事从 Windows 下复制过来的字体导致的问题。

Google Chrome 默认的字体比较奇怪，是「Times New Roman」、「Arial」和「Monospace」。见《Google Chrome 中的字体设置》一文。

Qt

见 https://z.sh/qtfontbugs。其中最著名的 bug 是 QTBUG-80434 (https://z.sh/434)。

小技巧

使用 gucharmap 软件可以检查所有字符使用指定的字体时的渲染效果，以及它回落到什么字体上了。找到要查看的字符，然后对着它按住右键即可。

使用 fc-match -s NAME:charset=HHHH 可以查看针对指定字符的字体优先顺序，包含这个字符的字体会优先。如果不加 -s 就是看指定的模式会匹配上的字体了。其中 HHHH 是该字符的 Unicode 码点之十六进制值。如 fc-match :charset=7684 查看默认字体下「的」字会用什么字体，而 fc-match serif:charset=7684:lang=ja 查看在语种为日文的时候，使用 serif 字族名会使用哪个字体来显示「的」字。使用 fc-list :charset=HHHH 则是查看包含该字符的所有字体。

参考资料

Category: 中文支持 | Tags: linux 字体中文支持

9
16
2013

记一次 Wine 乱码

今天发现 QQWry 升级程序的一些按钮和对话框中文显示乱码，但是在全新建立的 Wine prefix 中正常。经与新 prefix 的比对，将以下注册表信息写入system.reg后即恢复正常：

[System\\CurrentControlSet\\Control\\FontAssoc\\Associated Charset]
"ANSI(00)"="YES"
"OEM(FF)"="YES"
"SYMBOL(02)"="NO"

Category: 中文支持 | Tags: 乱码 wine 中文支持

依云's Blog

Happy coding, happy living!

自定义系统默认中文字体

fcitx5 码表同步方案

Linux 上的字体配置与故障排除

常见汉字字体

字体的属性

通用字族名

fontconfig 配置

查看浏览器使用的字体

Qt

小技巧

参考资料

记一次 Wine 乱码

随机文章

最新评论

最新留言

链接

计数器

存档

功能

RSS

权利声明

依云's Blog

Happy coding, happy living!

自定义系统默认中文字体

fcitx5 码表同步方案

Linux 上的字体配置与故障排除

常见汉字字体

字体的属性

通用字族名

fontconfig 配置

查看浏览器使用的字体

Qt

小技巧

参考资料

记一次 Wine 乱码

随机文章

标签云

最新评论

最新留言

链接

计数器

存档

功能

RSS

权利声明