みたび、漢字字典

といふことで、JavaScript による漢字字典。 今回は『康熙字典』のデータをメインにして作り直してゐる (pinyin 等は結構間違ひだらけだったりするけれども)。
データがデカくて 読み込みに時間がかゝるので注意のこと。

[康熙字典] の索引は、『康熙字典』によってゐる。 ただし、画数まで実装するのは面倒臭くて割愛してゐる。

[Unicode] の索引は、CJK Unified Ideographs (U+4E00~U+9FA5) が対象。 一応、Extension A, Extension B, Extension C1 も辞書データは作ってはあるけれども、 索引からはひけないよ。といふことね。 [search] による検索ならひっかかる筈だ。

フォントはいろいろローカルにインストールしておく必要がある。 本当はサーバ側で PNG を生成したりすればよいのだけどもね。
普通の日本語フォントでは全然足りない。 中国語フォントを持ってゐても全部の字を表示するのは難しい。
MS の用意してゐる多文字フォント ファイル Arial MS Unicode でも CJK Unified Ideographs Extension B が載ってゐない。 Extension B の載ってゐる Simsun (Founder Extended) でも足りない。 ちなみに『康煕字典』についてきたフォントはこれだ。
フォントを揃へても IE だと Extension B はなかなか表示できない。 FireFox, Mozilla でやっと表示ができる。 ただし、input 要素の value 属性に指定したものは綺麗に表示できるのだが、一般的な span 要素や div 要素下のテキスト ノードでは表示できるときとできないときがある。 HTML ブラウザ のフォント レンダリングの変な特徴だねえ。

KO字源 からデータを持ってきてみた。 量が莫大なので熟語は割愛。 結構誤字脱字が目立つねえ。 元データで surrogate pair 文字をサポートしてゐないみたいなので、 "?" に化けてゐたりもする。 それから、字源自体まだ音韻学に誤りの多い頃のものであったりもするので、 音もあまりあてにはならないかもしれない。

【候補漢字群】

font-family:

【詳細】


font-size:
font-family:


www.unicode.org