「法務・運用・品質」の課題を解決した、Mozc 拡張辞書システムとユーザー辞書
本プロジェクト「UniDic to Mozc Integration」は、Mozc(Google 日本語入力)ユーザー辞書を最適化・統合するためのシステム、およびMozc用ユーザー辞書です。
国立国語研究所が編纂した最高峰のコーパス「UniDic」の語彙(約102万語)を、Mozcのアルゴリズムに最適化させ、約35.4万語の実用的な基本形へと昇華させています。
Note
本プロジェクトのより詳細な設計思想、既存IME環境との比較、および品詞マッピングの統計データなどの技術的な詳細は、👉 Project.md(プロジェクト詳細説明書) をご参照ください。
本プロジェクト最大の特徴は、C++コンパイラやBazel等の複雑なビルドチェインを一切必要としない点にあります。OSを問わず、GUIの「辞書ツール」から直接インポートできます。
- Releases ページから、生成済みの
mozc_unidic_merged_*.zip(またはtsv形式) をダウンロードして展開します。 - Mozc または Google 日本語入力の「辞書ツール」を開きます。
- 「管理」>「新規辞書にインポート」を選択します。
- 解凍した
mozc_unidic_merged_1.tsvを指定し、インポートを実行します。 - 同様の手順で
_2.tsv〜_4.tsvまでを順番にインポートします。
Important
Mozcのユーザー辞書には「1ファイル最大10万語」の制限があるため、安全なサイズに自動分割されています。全語彙を取り込むために、分割されたすべてのファイルを必ずインポートしてください。
自分好みにカスタマイズしたい方や、将来の新しいコーパスを適用させたい場合は、以下の手順で変換スクリプトを実行してください。
- Python 3.x (※外部ライブラリへの依存は一切ありません。標準ライブラリのみで完結します。)
- UniDic CWJ 最新版 / UniDic CSJ 最新版 (lex.csv) ‐ Mozc
以下の環境にて、正常に辞書生成・インポートできることを確認しています。
- OS: Windows 11 Pro
- Python: Python 3.13.5
- IME: Mozc 3.33.6089.100
# 1. 各辞典の抽出と最適化変換
python converter_scripts/convert_unidic.py "path/to/cwj/lex.csv" "./output_tsvs"
python converter_scripts/convert_unidic.py "path/to/csj/lex.csv" "./output_tsvs"
# 2. 統合・重複排除と10万語分割出力
# ※ 出力された各TSVを指定して統合
python converter_scripts/merge_unidics.py "./output_tsvs/mozc_cwj.tsv" "./output_tsvs/mozc_csj.tsv" "output/mozc_unidic_merged.tsv"Tip
品詞マッピングのカスタマイズ機能
convert_unidic.py は、内部的な判定ロジックとして config/pos_mapping.json をデフォルトで読み込みます。このJSONファイルを編集することで、Pythonコードを一切触ることなく品詞マッピングのルールを書き換えることが可能です。設定項目として利用可能な品詞の一覧は、👉 config/mozc_pos_list.md をご参照ください。
また、独自のJSONファイルを使用したい場合は、第3引数で直接指定できます:
python converter_scripts/convert_unidic.py "path/to/lex.csv" "./output" "custom_rules.json"
本プロジェクトは、「変換スクリプト本体」と「生成される辞書データ」で適用されるライセンスが異なります。利用形態による権利と義務の差異に注意してください。
本リポジトリに含まれるPythonスクリプトは、MIT License の下で公開されています。ハッカビリティを最大化するため、コードの改変・再配布・商用利用は自由に行えますが、完全な無保証(AS IS)での提供となります。詳細はリポジトリ内の LICENSE ファイルをご参照ください。
本ツールによって変換・生成された辞書データ(TSVファイル)、および入力元となるコーパス「UniDic」のデータについては、国立国語研究所(NINJAL)が提示するトリプルライセンス(GPL v2.0 / LGPL v2.1 / 修正BSD)のうち、ユーザーの利便性を最大化するため 修正BSDライセンス(3条項BSDライセンス) を選択して適用するものとします。
生成されたTSVデータを公開・再配布、または他のソフトウェアに組み込んで利用する場合は、必ず以下のファイルを確認し、著作権表示要件を満たしてください: 👉 UNIDIC_LICENSE.txt