依云's Blog

5
12
2026

自定义系统默认中文字体

一开始使用Linux系统的时候，并没有多少自由开源的中文字体。那时候几乎所有人的选择都是文泉驿正黑。我就一直用啊用了好多年，直到后来截图时被网友说该换字体了，我才知道原来文泉驿项目已经停止很久了，网站上的新闻截止于2008年——都快20年啦。

文泉驿正黑的字形比较「旧时代」——以屏幕清晰度为优先，由于当时的屏幕普遍dpi低，笔画迁就像素风格，所以比较丑。另外也有些bug，比如「撨䑾詺㘃㞈㟯㫥」这几个字会有一片漆黑的区域。

文泉驿正黑看起来是这样的。注意截图中只有除标题外的中文部分用的是文泉驿正黑字体。

2014年，Google联合Adobe发布了思源黑体和Noto Sans CJK字体——这两款字体的汉字部分是相同的，区别只在于思源黑体会根据文本的区域设置来自动选择字形（通常不管使用哪个语言的字族名来指定），而Noto Sans CJK字族名只有英文版本，并且不同的字族名后缀会选择不同的地区字形。

我在2024年终于决定切换到思源黑体试试。它长这样：

图中的日文部分也是使用的思源黑体，只不过是日文字形。标题则使用的是思源宋体。读者可以在图片上点「右键」然后新建标签页打开图像，然后来回切换着对比。

可以看出，思源黑体是比文泉驿正黑好看多啦。而且思源字体有粗体版本，文泉驿正黑是没有粗体的，只有合成出来的所谓「伪粗体」。

但是，你有没有发现有什么地方不对劲？注意看大标题下方那行字，「条目」和「阅读」下边的装饰线与该行下方的分隔线有一段距离，而「大陆简体」和「工具」两处字偏低。事实上，思源黑体的问题远不止这些。思源黑体文字上方空出来的空间比下方多不少，造成行高太高、终端里文字不居中等各种问题。

（这个图片是使用命令pango-view --dpi=1024 --font=思源黑体 --annotate=glyph,layout,baselines -t A测试中文Test -o out.png生成的。）

因此我用了几天就换回文泉驿正黑了，但是把思源黑体作为部分网页字体在用（主要用于非简体中文内容，以及通过stylus指定的特定几个网站）。

最近，oldherl说更纱黑体修了行高的问题。于是我又试了几天这个基于思源黑体的字体。它的效果是这样的：

行高的问题确实解决了！但是——又要「但是」了——它的字怎么矮胖矮胖的？是我没看习惯的原因吗？于是我使用了几天，最后并没有习惯，反而是和思源黑体一对照，发现确实是许多字都变矮了一点。

于是我只好又换回已经用习惯了的文泉驿正黑。

诶等等！既然更纱黑体能修行高，我为什么不行？因为我不会，可是，今非昔比了呀——Gemini，给我来个脚本！

于是就有了这么个脚本——当然这个脚本是我改过的最终版本了。

#!/usr/bin/python3

from io import BytesIO

from fontTools.ttLib import TTCollection, TTFont

def adjust_font(font):
    target_ascent = 1025
    target_descent = -265
    
    # 修改 hhea 表 (macOS/Pango 渲染常用)
    font['hhea'].ascent = target_ascent
    font['hhea'].descent = target_descent
    font['hhea'].lineGap = 92

    # 修改 OS/2 表 (Windows/Linux 合规性)
    font['OS/2'].sTypoAscender = target_ascent
    font['OS/2'].sTypoDescender = target_descent
    font['OS/2'].sTypoLineGap = 92
    # usWin 参数决定了红线（剪切区域），设为相同值可消除额外间距
    font['OS/2'].usWinAscent = target_ascent
    font['OS/2'].usWinDescent = abs(target_descent)

    # 2. 修改 Font Family 名称
    name_table = font['name']
    for record in name_table.names:
        name_str = record.toUnicode()
        new_record_str = name_str.replace('Source Han', 'Lily Han') \
                .replace('思源', '百合') \
                .replace('源ノ角ゴシック', '百合ノ角ゴシック') \
                .replace('본고딕', '백합고딕') \
                .replace('SourceHan', 'LilyHan')
        # 针对不同 ID 进行替换
        # ID 1: Family Name, ID 4: Full Name, ID 6: PostScript Name 等
        if name_str != new_record_str:
            name_table.setName(new_record_str, record.nameID, record.platformID, record.platEncID, record.langID)

    # Medium as Semibold
    if font['OS/2'].usWeightClass == 500:
        # save then read to copy the font without referencing existing data structures
        buf = BytesIO()
        font.save(buf)
        buf.seek(0)
        sb_font = TTFont(buf)

        sb_font['OS/2'].usWeightClass = 600

        for record in sb_font['name'].names:
            name_str = record.toUnicode()
            if "Medium" in name_str:
                new_name = name_str.replace("Medium", "Semibold")
                record.string = new_name.encode(record.getEncoding())

        cff = sb_font['CFF '].cff

        for i in range(len(cff.fontNames)):
            if "Medium" in cff.fontNames[i]:
                cff.fontNames[i] = cff.fontNames[i].replace("Medium", "Semibold")
        
        # 修改 TopDict 内部的名称
        for topDict in cff.topDictIndex:
            for attr in ['FullName', 'FamilyName', 'Weight']:
                if val := getattr(topDict, attr):
                    if isinstance(val, str) and "Medium" in val:
                        setattr(topDict, attr, val.replace("Medium", "Semibold"))

        return sb_font

def main(input_ttc, output_ttc):
    ttc = TTCollection(input_ttc)
    new_fonts = list(ttc.fonts)
    for font in ttc.fonts:
        newfont = adjust_font(font)
        if newfont:
            new_fonts.append(newfont)
    ttc.fonts = new_fonts
    ttc.save(output_ttc)
    print(f"成功保存至: {output_ttc}")

if __name__ == '__main__':
    import nicelogger
    nicelogger.enable_pretty_logging('DEBUG')
    input_ttc = "SourceHanSans.ttc"
    output_ttc = "LilyHanSans.otc"
    main(input_ttc, output_ttc)

脚本使用fonttools这个Python库，把ascent、descent和lineGap这三个参数改成和文泉驿正黑一样的了。之所以要照着文泉驿正黑来改，是因为我的终端最大化之后，使用13pt字号差不多刚好填满35行（只空出来两行像素）。而使用别的参数，我调整字号好久，都会空出来小半到大半甚至接近一行文字的高度。

另外，这个脚本运行起来非常耗资源：它保存的时候会重新计算每一个字形，持续占用一个CPU核心长达六分多钟，内存只分配不释放，最终用掉接近20GiB。倒是生成的文件差异不大，用rsync很快就能同步回来。

最终效果图：

可惜的是思源黑体只有粗体和Medium，不像更纱黑体那样有半粗（Semibold）版本。思源黑体的粗体挺粗的。

由于我在使用思源黑体时遇到的问题都是在UI部分，而这里又不需要用到宋体，所以我没有去改思源宋体，其它地区的字形也还是用的原本的思源系列。

如果有人想试试我生成的这个字体的话，在这里下载（112 MiB）。

2026年05月13日更新：更新了脚本和字体文件。现在把Medium复制一份然后改叫Semibold了，因此有了半粗字重，在用到的地方会更接近设计者的意图，也看着更舒服。

Category: 中文支持 | Tags: 字体中文支持

11
11
2025

给论坛用上了文本嵌入模型

偶然间发现Discourse论坛支持利用文本嵌入模型来生成「相关话题」列表、提供语义化搜索。于是我给Arch Linux中文论坛试过了好几个模型，记录一下经验。

文本嵌入，英文叫「text embedding」，指的是将一段文本编码成语义空间中的向量，从而可以判断不同文本的语义相关性。编码出来的向量少则512维，多的能有4096维。而判断相关性有「余弦距离」（看两个向量的夹角大小）和「负内积」（一个向量和另一个向量的转置相乘，然后取负）两种方法，我都是看模型文档和示例来决定用哪个的。至于这些向量的存储和索引，Discourse使用的是pgvector这个PostgreSQL插件。

Discourse启用这个功能之后，会在每个话题下方推荐几个「相关话题」，很适合看看是不是有人问过相同的问题。语义化搜索则需要在搜索页面点按钮来显示。在搜索框里按两下回车，就能到搜索页面了（这时候语义化搜索就会进行了，虽然用户还看不到结果），或者点搜索框右边的按钮也行。

因为论坛以中文为主，所以没多少可以抄Discourse官方文档的地方。一开始我挑了好几个来尝试，bge-m3、all-mpnet-base-v2、gte-multilingual-base等。但是没想到它们体积不大，但跑起来却很吃资源。E5-2678 v3辛辛苦苦跑了好久，结果去数据库里一看，已索引的话题数量才几个、十几个，而且不见涨……后来写了API转换代理我才知道，原来是因为Discourse会批量并发请求，并发度会高达45左右，于是很容易导致本来就慢的请求因为排队太久而超时被放弃，CPU都白算了。

最终我找到gte-base-zh这个模型，是针对中文特化的。很小，才0.1B，但这CPU跑得动它。效果也还能接受。

后来了解到最近新出的Qwen3-Embedding系列，看评分效果是最好的。又有群友愿意提供显卡算力，于是试了试。

Qwen3-Embedding提供8B、4B、0.6B三种参数规模的模型。8B很重，我的6650XT的8G显存勉强能放下它的Q4_K_M量化版本。0.6B的只有Q8_0的量化版本，我的显卡跑起来轻松不少，就是不知道为什么它占了我4G+的显存，导致剩下的显存不够原神用了。另外运行的时候如果不用systemd的CPUWeight之类的手段降一下CPU优先级，会导致我的桌面也很卡——我没找到调整GPU优先级的方法，不过调整CPU优先级也管用。

这些模型在群友提供的RYZEN AI MAX+ 395上跑得就比较惨。这台设备有算力不错的核显——至少比用Linux的Apple M2 Ultra算得更快一些，也有核显能够使用大量内存的优势，但是！amdgpu驱动会在高负载时崩溃重置！这么久过去了，amdgpu依旧不待见核显啊（不过听说Intel那边新的xe驱动也有不少bug）。不过断断续续跑了几天之后，终于把大部分话题都索引好了。

后来我还是换0.6B模型了，因为群友提供的算力并不稳定，我想要更容易替代的方案。可能Qwen3-Embedding系列模型对我的用途来说实在是太优秀了，以至于不管是0.6B还是8B，我都没发现结果有什么明显的差异。但0.6B对性能的需求低很多，甚至编译机上的7950X3D也能跑——虽然编译机没那么多时间能跑它就是了。

我还尝试过Google家的embeddinggemma-300M模型。它的MTEB评分比gte-base-zh要高，但只比gte-base-zh大一倍。但实际用下来，呃，效果差很多，基本上没啥用，可能分数都得在别的语言上了吧。遂放弃。

目前的论坛文本嵌入算力主要由群友的RYZEN AI MAX+ 395提供。在它不在线的时候，则由另一位群友提供的Apple M2 Ultra编译机兼职。哪天要是它也有事不在了，还能由x86编译机接棒。在历史话题索引完毕之后，平时的请求其实挺少的。

哦对了，最近还接触过一个叫all-MiniLM-L6-v2的模型，超级小，只有22.7M参数，是火狐新加的地址栏语义化搜索用的。但是它只支持英文，对于中文来说纯粹在增加噪音，可以在about:config里搜索places.semanticHistory.featureGate关闭之。

最后说说运行这些模型的方式。对于给sentence-transformers用的模型，可以用ghcr.io/huggingface/text-embeddings-inference:cpu-latest这个容器来运行。缺点是，它只有支持CPU和CUDA的版本。所以我更喜欢找gguf格式的模型，然后用llama.cpp来运行，可以使用Vulkan或者ROCm。不过我测试发现llama.cpp用ROCm还不如用Vulkan的来得快，而ROCm有着极其巨大的依赖库群，我就不用它了。要是乐意用ROCm的话，也可以用ollama来跑，支持动态加载和卸载模型——但这对于长期运行的服务型用途来说并不是很适合，我还得传个参数让它不要一直加载卸载。

Category: 机器学习 | Tags: Discourse LLM NLP 机器学习中文支持

7
28
2024

fcitx5 码表同步方案

Category: 中文支持 | Tags: linux fcitx 中文支持

3
5
2023

Linux 上的字体配置与故障排除

常见汉字字体

电脑系统要显示字，首先得有字体。现在 Linux 上常用的、在维护的开源中文字体就一套，同时被 Noto 和思源两个项目收录。Noto 系列字体是 Google 主导的，名字的含义是「没有豆腐」（no tofu），因为缺字时显示的方框或者方框被叫作「tofu」。思源系列字体是 Adobe 主导的。其中汉字部分被称为「思源黑体」和「思源宋体」，是由这两家公司共同开发的，两个字体系列的汉字部分是一样的。

Noto 字体在 Arch Linux 上位于以下软件包中：

noto-fonts: 大部分文字的常见样式，不包含汉字
noto-fonts-cjk: 汉字部分
noto-fonts-emoji: 彩色的表情符号字体
noto-fonts-extra: 提供额外的字重和宽度变种

Noto 系列字族名只支持英文，命名规则是 Noto + Sans 或 Serif + 文字名称。其中汉字部分叫 Noto Sans/Serif CJK SC/TC/HK/JP/KR，最后一个词是地区变种。

思源系列则有：

adobe-source-sans-fonts: 无衬线字体，不含汉字。字族名叫 Source Sans 3 和 Source Sans Pro，以及带字重的变体，加上 Source Sans 3 VF
adobe-source-serif-fonts: 衬线字体，不含汉字。字族名叫 Source Code Pro，以及带字重的变体
adobe-source-code-pro-fonts: 等宽字体，不含汉字。字族名叫 Source Code Pro，以及带字重的变体，加上 Source Code Variable。
adobe-source-han-{sans,serif,mono}-{cn,hk,jp,kr,tw}-fonts: 五个地区的汉字之黑体、宋体和等宽版本
adobe-source-han-{sans,serif,mono}-otc-fonts: 所有地区合体了的汉字之黑体、宋体和等宽版本

其中等宽版本的中文字体位于 [archlinuxcn] 仓库中。

思源汉字字体的字族名有两种，「独立包装」的版本（非 OTC 版本），是「Source Han Sans/Serif」或本地化名称、空格、地区代码（CN/HK/TW/JP/KR）。比如「思源黑体 CN」、「源ノ角ゴシック JP」等。也有带字重的别名。

而全部打包的 OTC 版本，字族名是本地化名称或者英文的「Source Han Sans/Serif」空格再加上「HC/TC/HC/K」变种代码。如果没有变种代码，则是日文变种。为了区分，香港繁体的版本附带「香港」字样，比如黑体叫「思源黑體香港」。这些字体也有不同字重的别名。另外有个半宽的版本，是在字族名的变种代码前加「HW」字样，仅有少数几个字符是半宽的。

OTC 版本有趣的地方在于，对于大多数软件来说，不管你叫它的哪个地区的名字，它都会以设定的语种来显示。比如网页声明语种为日文（<html lang=ja>），那么不管字体指定为「源ノ角ゴシック」还是「思源黑体」或者「본고딕」，它都会「门上插刀、直字拐弯、天顶加盖、船顶漏雨」。所以用这个字体的话，不妨一律写「Source Han Sans」，然后加好语种标记。我知道的唯一例外是 mpv 的 ass 字幕文件，里边指定本地化名称的话，会使用那个语种的变体显示。

早些年还没有 Noto 和思源的时候，Linux 系统上通常使用文泉驿正黑或者文泉驿微米黑。后者是基于 Android 系统上的 Droid Sans Fallback 字体，体积较小。再之前是文鼎系列字体，也就是名字「AR PL」开头、包名叫 ttf-arphic-{uming,ukai} 的那些。

字体的属性

字体有很多属性，常用的有字族（family）、倾斜（slant）、字重（weight）。后两者合一起叫样式（style）。

字族就是它的名字啦。常见的指代字体的方式除了字族之外还有 Postscript 名，它不含空格、使用短横线将样式附加在名称之后，比如「DejaVuSans-BoldOblique」。后者是 CSS @font-face 规则中使用 local 时唯一指定样式的方法（除非该字体把样式也写到了字族名里）。

倾斜就是斜不斜，英文叫「Roman」「Italic」或者「Oblique」，Italic 是专门的斜体写法（更接近手写样式）， Oblique 是把常规写法倾斜一下完事。

字重就更简单了，就是笔划的粗细。常见的有 Regular、Normal、Medium、Bold、Semibold、Black、Thin、Light、Extralight 等。

详细信息可以 man 5 fonts-conf 查询。

通用字族名

很多时候，程序并不在乎用户具体使用的是哪款字体，像很多网站的 CSS 那样把各个平台的常见字体全部列出来太傻了，又容易出问题。所以，人们发明了「通用字族名」，也就是 sans-serif (sans)、serif 和 monospace (mono) 这些。中文分别叫无衬线字体、衬线字体和等宽字体。但是中文字体不讲衬线不衬线的，而是叫「黑体」和「宋体」（有些地区叫「明体」）。黑体常用于屏幕显示的正文，而宋体常用于印刷文本的正文。

另外，中文没有斜体。英文使用斜体的场合，中文通常是使用仿宋或者楷体。中文本也没有粗体。传统上，强调的时候，中文使用着重号，也就是在字的下方或者右方加点，像这样子（如果你看到的着重号在文字上方，那是因为你用的 Chrome/Chromium 浏览器不听页面指示，执意将它作为日文处理了）。

最近有一个新加的通用字族名叫作「emoji」。Pango 渲染表情符号的文本时，会自动使用 emoji 字体。但是 Qt 尚不支持，导致有时会出问题，而将 emoji 字体排到常规字体之前的做法，又会导致数字和空格显示为全角。火狐自带了一个 SVG 格式的 emoji 字体，会自动使用。很多软件（比如 Telegram）也会使用图片来取代 emoji 字符。

CSS 4 又加了一套 ui- 开头的字族名，但是除了 Safari 没浏览器支持。fontconfig 倒是可以通过配置来支持上，但是由于火狐的一个 bug 导致 ui-sans-serif 无效。

fontconfig 配置

大部分 Linux 桌面软件都或多或少地使用 fontconfig 来获取字体配置信息。其中 Pango（GTK 使用的文字渲染库）的支持是最好的。很多简陋的图形界面库则只用来读取默认字体，可能完全不支持字体回落，造成部分文字明明有字体却显示为「豆腐」。

了解了通用字族名，我们就可以为它们指定我们喜欢的字体啦。在 ~/.config/fontconfig/fonts.conf 里为每一个通用字族名像这样写即可：

  <match target="pattern">
    <test qual="any" name="family">
      <string>sans-serif</string>
    </test>
    <edit name="family" mode="prepend" binding="strong">
      <string>DejaVu Sans</string>
      <string>文泉驿正黑</string>
      <string>Twemoji</string>
      <string>Font Awesome 6 Free</string>
      <string>Font Awesome 6 Brands</string>
      <string>Source Han Sans</string>
    </edit>
  </match>

因为我并没有完全采用思源字体来显示汉字，所以我还是为不同语言和地区变种分别匹配了不同的字体。我完整的配置文件见：https://github.com/lilydjwg/dotconfig/tree/master/fontconfig。其中，web-ui-fonts.conf 文件用于提供 CSS 4 新增的字族名，而 source-han-for-noto-cjk.conf 则使用思源系列字体来代替 Noto CJK 系列字体。

查看浏览器使用的字体

排查字体问题时，一个常见的要知道的事实是，软件究竟在用什么字体来显示这些文本？想知道这个通常很难，但是对浏览器来说却很简单。所以字体匹配问题首先看浏览器能不能复现。

火狐浏览器，对着有疑问的字点右键，选择「检查」（也可以按 Q 键），然后看弹出的开发者工具右边的「字体」选项卡即可。鼠标悬停到下方灰色的字体名上时还能将使用该字体的字高亮显示。

Google Chrome 浏览器及其变种类似，对着有疑问的字点右键，选择「检查」（也可以按 N 键），然后看弹出的开发者工具右边的「计算样式」选项卡，拖动到最下面，可以看到使用的字体名以及有多少个字形。

至于这个字体是怎么选上的，可以切换到「规则」（火狐）或者「样式」（Google Chrome）选项卡来看 CSS 规则。搜索「font-family」看看具体被应用上的规则是哪一条。通常这里会写上一大排字体名。火狐会将正在使用的那个加上下划线，但是有时候不准确（比如该 HTML 元素使用了多种字体）。更好的除错方法是，从头到尾一个个删字体，删到哪一个时网页上的字体变动了，就说明在使用的是哪一个。我通过这种方式找出了好些我学生时代不懂事从 Windows 下复制过来的字体导致的问题。

Google Chrome 默认的字体比较奇怪，是「Times New Roman」、「Arial」和「Monospace」。见《Google Chrome 中的字体设置》一文。

Qt

见 https://z.sh/qtfontbugs。其中最著名的 bug 是 QTBUG-80434 (https://z.sh/434)。

小技巧

使用 gucharmap 软件可以检查所有字符使用指定的字体时的渲染效果，以及它回落到什么字体上了。找到要查看的字符，然后对着它按住右键即可。

使用 fc-match -s NAME:charset=HHHH 可以查看针对指定字符的字体优先顺序，包含这个字符的字体会优先。如果不加 -s 就是看指定的模式会匹配上的字体了。其中 HHHH 是该字符的 Unicode 码点之十六进制值。如 fc-match :charset=7684 查看默认字体下「的」字会用什么字体，而 fc-match serif:charset=7684:lang=ja 查看在语种为日文的时候，使用 serif 字族名会使用哪个字体来显示「的」字。使用 fc-list :charset=HHHH 则是查看包含该字符的所有字体。

参考资料

Category: 中文支持 | Tags: linux 字体中文支持

10
21
2016

在 Python 里设置 stdout 的编码

有时候进程的运行环境里，locale 会被设置成只支持 ASCII 字符集的（比如 LANG=C）。这时候 Python 就会把标准输出和标准错误的编码给设置成 ascii，造成输出中文时报错。

一种解决办法是设置支持 UTF-8 的 locale，但是那需要在 Python 进程启动前设置。启动之后，初始化过了，再设置 locale 也不会重新初始化那些对象。

另一种办法是往 sys.stdout.buffer 这种地方直接写 bytes。理论上完全没问题，但是写起程序来好累……

我就去找了一下怎么优雅地弄一个新的 sys.stdout 出来。Python 3 的 I/O 不再使用 C 标准库的 I/O 函数，而是直接使用 OS 提供的接口。封装位于 io 这个模块里边，有带缓冲的，不带缓冲的，二进制的，文本的。

研究了一下文档可知，sys.stdout 是个 io.TextIOWrapper，有个 buffer 属性，里边是个 io.BufferedWriter。我们用它造一个新的 io.TextIOWrapper，指定编码为 UTF-8：

import sys
import io

def setup_io():
  sys.stdout = sys.__stdout__ = io.TextIOWrapper(
    sys.stdout.detach(), encoding='utf-8', line_buffering=True)
  sys.stderr = sys.__stderr__ = io.TextIOWrapper(
    sys.stderr.detach(), encoding='utf-8', line_buffering=True)

这里除了可以设置编码之外，也可以设置错误处理和缓冲。所以这个技巧也可以用来容忍编码错误、改变标准输出的缓冲（不需要在启动的时候加 -u 了）。

其实这样子还是不够彻底。Python 在很多地方都有用到默认编码。比如 subprocess，指定 universal_newlines=True 时 Python 会自动给标准输入、输出、错误编解码，但是呢，在 Python 3.6 之前，这里的编码是不能手动指定的。还有参数的编码，也是不能指定的（不过可以传 bytes 过去）。

所以，还是想办法去设置合适的 locale 更靠谱……

Category: python | Tags: Python 中文支持 linux

5
17
2015

Linux 下在 Minecraft 里输入中文

Linux 下各种奇怪的地方总是会遇到输入启用不了的情况，比如 Sublime Text 就需要打补丁版。Teewords 以前能好好地使用输入法的，不知从什么时候起，启用输入法输入时，直接从键盘输入的编码和输入法提交的字符串都会被 teewords 接收并显示（teewords 版本号 0.6.3）。最近换了新本子，跑起 Minecraft 终于不那么卡了，所以也研究了一下怎么在 mc 里输入中文。

喵窝 wiki 里给出了一个脚本，是通过外部程序输入中文，然后粘贴到 mc 里来达到输入中文的效果的。然而粘贴功能在我的 mc 里是无效的。不过照着这思路，改进一下发现也能用。

首先，需要 xdotools。其次，需要一个输入文本的程序。我使用的是 zentiy，当然还有 kdialog、gdialog 之类的也可以用。最后，需要设置快捷键。

我的脚本如下：

#!/bin/bash -e

chars=$(zenity --title 中文输入 --text 中文输入 --width 500 --entry 2>/dev/null)
sleep 0.1
xdotool key --delay 150 Escape t
sleep 0.2
xdotool type --delay 150 "$chars"
xdotool key Return

原理很简单，在这个脚本被调用时，弹出一个对话框让用户输入文字。对话框关闭后，焦点应该回到 mc。发送 Escape 键「回到游戏」，然后发送「t」开启聊天。然后把文字发送过去并按回车。

很神奇，原来可以直接向它发送中文字符。不过那些延迟是需要的，不然会接收不完整。所以使用效果就是，对话框关闭之后，可以看到程序在往 mc 里一个个地输入文本并发送～

至于绑定快捷键，作为 Awesome 用户，可以做到只在 mc 的窗口绑定。定制性比较差的窗口管理器/桌面环境可能只能全局绑定了，会占用掉一个全局快捷键。

记一次 Wine 乱码

今天发现 QQWry 升级程序的一些按钮和对话框中文显示乱码，但是在全新建立的 Wine prefix 中正常。经与新 prefix 的比对，将以下注册表信息写入system.reg后即恢复正常：

[System\\CurrentControlSet\\Control\\FontAssoc\\Associated Charset]
"ANSI(00)"="YES"
"OEM(FF)"="YES"
"SYMBOL(02)"="NO"

Category: 中文支持 | Tags: 乱码 wine 中文支持

8
5
2013

rst_tables 改进版

rst_tables 是一个用来创建和格式化 rst（reStructuredText）格式文档中的表格用的。此文档里的表格得画成表格的样子，囧死了……比如（网页上显示的可能没对齐，在 Vim 里应该很齐的www）：

+----------+----------+-----------------------------------------+
| 格式名称 | 使用频率 | 使用场景                                |
+==========+==========+=========================================+
| markdown | 非常高   | 简单的文字，如博客、简单文档            |
+----------+----------+-----------------------------------------+
| rst      | 较低     | 较复杂的文档，如包含表格或者描述性列表。|
|          |          | 以及 Python 库的文档。                  |
+----------+----------+-----------------------------------------+

所以，作为编辑器之神的 Vim，当然会有更方便的创建这种非人道的表格的办法啦。（其实我是看到 Vimwiki 的表格挺不错的 n(≧▽≦)n

略作搜索，找到了 rst_tables。它是这样子写的（墙外视频演示）：

格式名称  使用频率  使用场景
markdown  非常高  简单的文字，如博客、简单文档
rst  较低  较复杂的文档，如包含表格或者描述性列表。以及 Python 库的文档。

每行的单元格间空两格，然后光标放在光标上，按\\c（其实是<leader><leader>c，create），就创建好啦。如果后期又修改了，按\\f（format）就可以重新格式化啦。

rst 的表格里可以写多行文字，就如前边所示那样。修改表格第一行那些减号的数量后再按\\f，可以调整栏宽。

好啦，rst_tables 本身的介绍至此结束。下面讲讲我作出的改进：

去除对 vim_bridges Python 库的依赖。根本没大量使用的东西，也没省下几行代码，何必用呢。
正确对齐和排版中文。官方版考虑了中文字符的宽度，但是用 Python 的 textwrap 来排版，造成各种混乱。我给改成用 Vim 原生排版功能排了。
使用 Python 3 接口，免得非 UTF-8 'encoding' 时出问题。同时使用了 Vim 7.4 新添加的 Python 接口。
如果没有 Python 支持，不要载入。
键映射局部于缓冲区。
放到 plugin 目录下，因为那些 Python 函数定义不需要载入多次。

安装很简单，把这个文件（使用「Raw」链接来下载）扔到 ~/.vim/plugin 下即可。

Category: Vim | Tags: vim python 中文支持

7
30
2013

对比不同字体中的同一字符

有人在 openSUSE 中文论坛询问他的输入法打出的「妩媚」的「妩」字为什么显示成「女」+「元」。怀疑是字体的问题，于是空闲时用好友写的 python-fontconfig 配合 Pillow （PIL 的一个 fork）写了个脚本，使用系统上所有包含这个「妩」字的字体来显示这个字，看看到底是哪些字体有问题。

（更新后的）脚本如下：

Google Chrome / Chromium 用户请注意：如果复制得到的代码中含有不间断空格（0xa0），请手动替换下。

#!/usr/bin/env python3
# vim:fileencoding=utf-8

from PIL import Image, ImageDraw, ImageFont
import fontconfig

ch = '妩'
def get_fonts():
  ret = []
  for f in fontconfig.query():
    f = fontconfig.FcFont(f)
    if f.has_char(ch):
      ret.append((f.file, f.bestname))
  return ret

w, h = 800, 20000
image = Image.new('RGB', (w, h), 'white')
draw = ImageDraw.Draw(image)
pos = 0
w = 0
strs = ch
for fontfile, fontname in get_fonts():
  font = ImageFont.truetype(fontfile, 24)
  s = '%s: %s' % (fontname, strs)
  font_width, font_height = font.getsize(s)
  w = max((font_width, w))
  draw.text((10, pos), s, font=font, fill='black')
  pos += font_height
  h = pos

image = image.crop((0, 0, w+10, h))
image.save('fonts.png')

寻找字体，然后渲染到当前目录下的fonts.png文件中。寻找字体的过程挺花时间的，要耐心等待。最后结果如下：

我这里，文泉驿微米黑、~~方正魏碑~~、某个 Droid Sans Fallback 字体中「妩」字的字形不对。（我这里有三个字体文件都叫「Droid Sans Fallback」……）>

Category: python | Tags: python 字体 fontconfig 中文支持

10
7
2012

Fcitx Lua 插件：国际音标输入

GTK 右键的输入法菜单中有一项「IPA」，用于输入国际音标的。不过为了输入几个国际音标去够鼠标点菜单太麻烦了。既然是输入，交给我最爱的 fcitx 输入法去处理就好了嘛。

GTK 的国际音标输入很简单，每一两个字符对应一个音标字符。不过，因为通常是连续输入好几个国际音标，因此简单地使用 fcitx 的「快速输入」模块的话，每输入一个得打一次前缀，太痛苦了。于是我用 fcitx 的 Lua 模块来做。

要注意的是，fcitx 的 Lua 支持默认没有开启，编译时需要在 cmake 参数中加上-DENABLE_LUA=On。Arch 用户可以从 archlinuxcn 源安装 fcitx-lilydjwg-git。其它发行版可能有单独的fcitx-lua包，也可能需要自行编译。

安装方法很简单，把ipa.lua放到~/.config/fcitx/lua目录下即可。然后按Ctrl-5（默认）重新加载 fcitx 配置即可。

使用方法是，使用预定义的快速输入快捷键（默认是;）进入「快速输入」模式后，输入命令前缀yb，然后按 GTK 那个 IPA 输入法的方式输入即可，按空格提交输入。不知道对应关系的可查看脚本源码。

[ˌðæts ˈɔːl ˈθænks].

Category: Linux | Tags: fcitx Lua 中文支持

依云's Blog

Happy coding, happy living!

自定义系统默认中文字体

给论坛用上了文本嵌入模型

fcitx5 码表同步方案

Linux 上的字体配置与故障排除

常见汉字字体

字体的属性

通用字族名

fontconfig 配置

查看浏览器使用的字体

Qt

小技巧

参考资料

在 Python 里设置 stdout 的编码

Linux 下在 Minecraft 里输入中文

记一次 Wine 乱码

rst_tables 改进版

对比不同字体中的同一字符

Fcitx Lua 插件：国际音标输入

随机文章

最新评论

最新留言

链接

计数器

存档

功能

RSS

权利声明

Happy coding, happy living!

常见汉字字体

字体的属性

通用字族名

fontconfig 配置

查看浏览器使用的字体

Qt

小技巧

参考资料

随机文章

标签云

最新评论

最新留言

链接

计数器

存档

功能

RSS

权利声明