Skip to content

字典管理

字典(码表与词库)是输入法的核心数据资产。几维输入法提供了现代化的可视化字典管理后台,支持多方案独立挂载、拖拽导入及动态排序。

字典类型与存储拓扑

根据激活的输入方案,系统将调度不同路径下的字典资产:

Witcraft(主辅混输方案)

  • 主码字典dicts\phonetic\):承载读音至汉字的映射。默认预装高品质开源拼音词库。
  • 辅码字典dicts\shape\):承载汉字至形码字根的映射。用于在拼音重码时进行精确过滤。

Witset(智能纠错方案)

  • 整句字典dicts\sentence\):基于 N-gram 或向量构建的语言模型语料。默认挂载万象语法模型及高频基础词表。

Mabiao(纯码表方案)

  • 码表字典dicts\mabiao\):提供给五笔、郑码等传统形码用户使用的全量映射码表。

字典配置与调度

优先级与层级

在管理面板中,支持同时挂载多个同类型字典。字典的生效顺序遵循列表自上而下的优先级排列。可通过拖拽直接改变挂载顺序。

字典合并机制

不同字典中相同编码的词条会进行并集处理;不同字典中对同一汉字的不同编码定义同样有效。

Witset 特种词库调度

整句模式下,系统默认拆分了多个专业维度的挂载表:

词库标识作用域挂载建议
base核心 2-3 字基础词汇必选
chars9000+ 核心单字映射必选
poetry经典古诗词长句推荐
place / people结构化地名与人名数据推荐
chars.bigCJK 超大字符集与生僻字谨慎开启

开启 chars.big 可能会增加语言模型在长句推理时的候选空间干扰,建议仅在涉及古籍录入时启用。

导入与规范

支持的数据格式

系统支持解析 Rime 标准 YAML 字典与纯文本词库。导入文件必须采用 UTF-8 编码,否则将被引擎拦截。

格式 1:Rime 标准字典 (.dict.yaml)

支持完整的元数据定义与多层级挂载。

yaml
---
name: my_custom_dict
version: "1.0"
sort: by_weight
---
# 词条格式:词条<Tab>编码<Tab>权重
算法	suan fa	300
数据库	shu ju ku	280

格式 2:纯文本词库 (.txt)

简化格式,每行对应一个词条,字段间使用 <Tab> 制表符分隔。

text
算法	suan fa	300
数据库	shu ju ku	280

导入流与错误排查

在后台拖入文件后,系统将执行以下管线:

  1. 格式校验:检查 UTF-8 编码声明与 YAML 语法块。
  2. 路由分配:将合法文件落盘至相应的 dicts/* 目录。
  3. 状态注入:自动在管理列表中呈现并默认勾选。

常见拦截原因

  • 分隔符使用了空格而非制表符 (\t)。
  • 文件过大导致前端内存超限(建议拆分后分批导入)。

变更生效

执行任何字典层面的启用、禁用或排序操作后:

  1. 点击右上角 保存配置
  2. 执行 重新部署
  3. 引擎将重新编译二进制索引 (.bin)。此过程受词库规模影响,耗时可能在 10-30 秒不等。