字典管理
字典(码表与词库)是输入法的核心数据资产。几维输入法提供了现代化的可视化字典管理后台,支持多方案独立挂载、拖拽导入及动态排序。
字典类型与存储拓扑
根据激活的输入方案,系统将调度不同路径下的字典资产:
Witcraft(主辅混输方案)
- 主码字典(
dicts\phonetic\):承载读音至汉字的映射。默认预装高品质开源拼音词库。 - 辅码字典(
dicts\shape\):承载汉字至形码字根的映射。用于在拼音重码时进行精确过滤。
Witset(智能纠错方案)
- 整句字典(
dicts\sentence\):基于 N-gram 或向量构建的语言模型语料。默认挂载万象语法模型及高频基础词表。
Mabiao(纯码表方案)
- 码表字典(
dicts\mabiao\):提供给五笔、郑码等传统形码用户使用的全量映射码表。
字典配置与调度
优先级与层级
在管理面板中,支持同时挂载多个同类型字典。字典的生效顺序遵循列表自上而下的优先级排列。可通过拖拽直接改变挂载顺序。
字典合并机制
不同字典中相同编码的词条会进行并集处理;不同字典中对同一汉字的不同编码定义同样有效。
Witset 特种词库调度
整句模式下,系统默认拆分了多个专业维度的挂载表:
| 词库标识 | 作用域 | 挂载建议 |
|---|---|---|
base | 核心 2-3 字基础词汇 | 必选 |
chars | 9000+ 核心单字映射 | 必选 |
poetry | 经典古诗词长句 | 推荐 |
place / people | 结构化地名与人名数据 | 推荐 |
chars.big | CJK 超大字符集与生僻字 | 谨慎开启 |
开启
chars.big可能会增加语言模型在长句推理时的候选空间干扰,建议仅在涉及古籍录入时启用。
导入与规范
支持的数据格式
系统支持解析 Rime 标准 YAML 字典与纯文本词库。导入文件必须采用 UTF-8 编码,否则将被引擎拦截。
格式 1:Rime 标准字典 (.dict.yaml)
支持完整的元数据定义与多层级挂载。
yaml
---
name: my_custom_dict
version: "1.0"
sort: by_weight
---
# 词条格式:词条<Tab>编码<Tab>权重
算法 suan fa 300
数据库 shu ju ku 280格式 2:纯文本词库 (.txt)
简化格式,每行对应一个词条,字段间使用 <Tab> 制表符分隔。
text
算法 suan fa 300
数据库 shu ju ku 280导入流与错误排查
在后台拖入文件后,系统将执行以下管线:
- 格式校验:检查 UTF-8 编码声明与 YAML 语法块。
- 路由分配:将合法文件落盘至相应的
dicts/*目录。 - 状态注入:自动在管理列表中呈现并默认勾选。
常见拦截原因:
- 分隔符使用了空格而非制表符 (
\t)。 - 文件过大导致前端内存超限(建议拆分后分批导入)。
变更生效
执行任何字典层面的启用、禁用或排序操作后:
- 点击右上角 保存配置。
- 执行 重新部署。
- 引擎将重新编译二进制索引 (
.bin)。此过程受词库规模影响,耗时可能在 10-30 秒不等。