Skip to content
kcwu edited this page Feb 11, 2013 · 3 revisions

本文件說明是我自行理解、猜測後寫的,很有可能有誤。請不吝指教。

Overview

字碼列表分為五欄, 用 tab 隔開, 依序是

  1. 字號
  2. 註記
  3. 序號
  4. 字(UTF-8編碼)

這幾欄的資料是從查詢結果頁得到的。

字號

異體字很多怪字、不可考的字,所以不是用一般的編碼系統,而是自己編碼。編碼方式主要是定一個「正字」,該字的其他異體字再依附編碼。譬如「一」有許多不同的寫法,我們現在定常見的「一」這種寫法是正字,編碼為「A00001」,其他異體字則加 -001,-002,… 編號。

  • A00001 是「一」
  • A00001-001 「A00001-001
  • A00001-002 「弌」
  • A00001-003 「A00001-003
  • A00001-004 「A00001-004
  • A00001-005 「壹」
  • A00001-006 「弌」

另外, 還有更細分的編碼, 我還不清楚這樣編碼代表什麼。像是

  • A00004 三
  • A00004-001 弎
  • A00004-001-1 參
  • A00004-001-2 叁

根據 編輯說明 /編輯凡例 /編輯體例 /分例 /正字編輯體例 的「體例說明」

本字典所收正字,皆列有字號,以表其來源。字號中之英文字母,「A」表常用字,「B」表次常用字,「C」表罕用字,「N」則為新增正字。

ABC三英文字母後之數字,為原字表之字號。N字母後之數字,則為編輯小組依收錄時間先後所排流水序號。

例如:	「A01809」即表此正字收於《常用字表》第1809號;「N00001」即表此正字為《新增正字表》第1號。

用字號都可用直接連結到該頁,如 http://dict2.variants.moe.edu.tw/variants/rbt/word_attribute.rbt?educode=A00001

註記

第二欄註記「正」表「正字」,「附」表「附錄字」。根據 編輯說明 /編輯凡例 /編輯體例 /分例 /附錄字編輯體例 的說明

本字典所謂「附錄字」,指異體與正字關係疑而待考者。置於各該正字下,但不呈現於「異體字欄」。

序號

先定正字,再依附異體字的編碼法,要注意一個"字"的編碼不是唯一的。

譬如「壹」自己是「正字」同時也是「一」(A00001)的異體字。所以「壹」有兩個編碼,一個是 A00001-005, 一個是 A00834。

對於一個字有多個字號,另以「序號」區別,也就是第三欄。(此處「序號」是我取名的,也許有更正式的稱呼)

如果該字有在 Unicode 編碼,則在第四欄。以 UTF-8 編碼。

(我不知道這是哪個版本的 Unicode)(異體字典主要以 CNS11643 為準,所以大概是 educode->cns11643->unicode 查出來的吧)

如果該字不在 Unicode 內,則有圖檔路徑(相對於 http://dict2.variants.moe.edu.tw/ ),URL 如 http://dict2.variants.moe.edu.tw/variants/tmp/2092a.png 這邊給的是異體字典預設的「教育部宋體字圖」,網站上另有「原版手寫字圖」

字形

根據 系統說明 /字型環境說明 的說明,在 Unicode 編碼範圍的字,推薦的字形是「標楷體」還有「全字庫正楷體」

Clone this wiki locally