char(n) の注意を強調

ma91n · ma91n · commit 70a9ad588267 · 2025-02-05T22:24:20.000+09:00
diff --git a/documents/forDB/postgresql_guidelines.md b/documents/forDB/postgresql_guidelines.md
@@ -531,8 +531,8 @@ PostgreSQLにはユーザーが使用可能な豊富な[データ型](https://ww
 | 文字列             | `varchar(n)`                               |        |         | 名称／説明文など。textは桁数が不明となり、システム間連携やデータサイズ見積もりで扱いにくいため、使用しない                                                                                                                                                                                                                                                                                                                                                                                                                                              |
 | フラグ             | `boolean`                                  | ✔     | false   | 必ず`NOT NULL`制約を付与する。MySQLではbooleanはtinyint型に置き換えられる。tinyintは0と1以外の値を格納することが可能なので、厳密なboolean型を扱うには挿入・更新時に値チェックが必要になることから、MySQLではbooleanの利用は考慮が必要である。PostgreSQLでは上記の問題ないとして推奨する。 フラグの表現として、`char(1)`やsmallintで表現する流派もあるが、入力値が明確になるという点でbooleanを用いる。「boolean型を別の型にできないか考える」章も参考にする                                                                                             |
 | UUID               | `uuid`                                     |        |         | `UUID`型か`varchar(36)`の選択があるが、`UUID`型の場合は16byteで済み、性能／コスト上のメリットが大きい。なお、`gen_random_uuid()`も`UUID`型である                                                                                                                                                                                                                                                                                                                                                                                                        |
-| 配列               | `[]`                                       |        |         | 原則、配列は正規化を行い利用しない。もし、利用する場合は`json`/`jsonb`型と同様の利用方針とする。                                                                                                                                                                                                                                                                                                                                                                                                                                                        |
-| 構造化データ       | `json` `jsonb`                             |        |         | 原則JSONデータは正規化を行い、`json`/`jsonb`型は利用しない。 以下のようなユースケースの場合、`json` `jsonb`型の利用を許容する 1️⃣外部のWeb API応答の生データをログ的に保存したい 2️⃣システム間連携で、自システムで利用せず横流しするだけの場合 JSON型は挿入が高速、JSONB型は検索が高速であるため、例えば2️⃣のケースではJSON型を利用する                                                                                                                                                                                                                    |
+| 配列               | `[]`                                       |        |         | 原則、配列は正規化を行い利用しない。もし、利用する場合は`json`/`jsonb  `型と同様の利用方針とする。                                                                                                                                                                                                                                                                                                                                                                                                                                                      |
+| 構造化データ       | `json` `jsonb`                             |        |         | 原則JSONデータは正規化を行い、`json`/`jsonb`型は利用しない。 ただし、次の1、2のような場合は許容する 1️⃣外部のWeb API応答の生データをログ的に保存したい 2️⃣システム間連携で、自システムで利用せず横流しするだけの場合<br> ※JSON型は挿入が高速、JSONB型は検索が高速であるため、例えば2️⃣のケースではJSON型を利用する                                                                                                                                                                                                                                         |
 
 なお、次のデータ型は利用しない。理由は以下。
 
@@ -542,7 +542,7 @@ PostgreSQLにはユーザーが使用可能な豊富な[データ型](https://ww
   - 海外拠点でのアプリケーション利用など、異なるタイムゾーンでの利用時にも対応しやすくなるため
 - `char`
   - 代わりに `varchar(n)` を用いる
-  - データサイズの削減メリットがあり、対象のカラム値が最小桁数＝最大桁数 である場合に、明示するという目的でも利用をしたい場合がある
+  - データサイズの削減メリットがあり、対象のカラム値が最小桁数＝最大桁数 である場合に、明示するという目的で`char` を利用をしたい場合がある
   - テストデータ投入・データパッチ・アプリケーション不備等が原因で、桁不足があると末尾にスペースが入る。それにより動作検証でハマる事が多い
   - 本規約では後者の開発生産性観点を優先とし、利用を禁止とする
 - `text` および長さの指定がない `varchar`
@@ -569,6 +569,37 @@ PostgreSQLにはユーザーが使用可能な豊富な[データ型](https://ww
 整数型はintegerとbigintを使い分けることが本規約の推奨だが、設計の揺れを防ぐためや、考慮漏れなどで`integer` から `bigint` への型変更を完全に避けるために、多少のオーバーヘッドを犠牲に`bigint` に統一する考え方もある。これについては意見が分かれることが多く、採用についてはシステムのワークロードや設計上のトレードオフを考慮して検討すること。
 :::
 
+::: warning char(n) 型にハマる
+
+`char(n)` 型はカラム値が桁数未満の場合に、半角スペースでパディングされる仕様がある（桁数超過の場合はエラーになるが、桁数以下の場合はエラーにならない）。
+そのため、単体テストデータの比較などで、見た目は正しいが半角スペースの存在で値が不一致となり、テストが落ちてしまうことがある。初心者が良く陥るミスの1つであるが、初見殺しである。
+
+以下に例を示す。
+
+```sql
+CREATE TABLE sales_category (
+    code_id SERIAL PRIMARY KEY,
+    category_code CHAR(8) -- 固定長8文字
+);
+
+-- ダミーデータ登録（5文字）
+INSERT INTO sales_category (category_code) VALUES ('DUMMY');
+```
+
+SQLで検索すると、表示上は `DUMMY` に見えるが、`CONCAT()` で文字列結合すると `DUMMY   123` と半角スペースでパディングされた値に `123` が追加されていることがわかる。
+
+```sql
+# SELECT category_code, CONCAT(category_code, '123') FROM sales_category;
+ category_code |  concat
+---------------+-----------
+ DUMMY         | DUMMY   123
+(1 row)
+```
+
+回避策としては正しく宣言された桁数（先程の例では8文字）でテストデータを登録することが考えられるが、開発者の負荷が高まってしまう。そのため `varchar(n)` を変わりに使い、発生原因を根本から無くすことを推奨する。
+
+:::
+
 参考: [Don't Do This - PostgreSQL wiki](https://wiki.postgresql.org/wiki/Don%27t_Do_This)
 
 ## IDENTITY列