保土ケ谷区と保土ヶ谷区

たまトラでは長期データ収集整理のページがいくつかあり、「ファミマのゆうちょATM設置店を都道府県別に検索しやすくしてみた」もそのひとつ。定期更新を続けています。

最近、店舗数の多い横浜市や大阪市などエリアのリンクを、市単位から区単位に表記するように変更中。そこで問題が。

横浜市で抽出すると116店舗あるのに、横浜市◯◯区で抽出したあとに各区を合計すると110店舗。6店舗の差で計算が合いません。

処理内容をチェックしても不具合は無く、最終手段の手作業でのェックを実行。

原因はゆうちょATMリストに保土ケ谷区の表記が2種類混在している事でした。

「保土ケ谷区」と「保土ヶ谷区」。大きいケと、小さいヶの違い。

正式にはどちらのか? 保土ケ谷区のサイトをチェックすると

「保土ケ谷区」 大きい ケ です。

もうひとつ同じような現象は、埼玉県鶴ヶ島市。ゆうちょATMのデータだと、大きいケと小さいヶが混在しています。埼玉県鶴ヶ島市のサイトによると小さい「ヶ」が正式表記です。

自分がこの手のシステムを設計するとしたら、表記ゆれが無いよう住所データを統一します。人名と違って住所は行政による指定の表記があるため統一が容易。普段の生活ならどちらでも良いじゃないかとは思いますが、情報処理ではデータに微妙な違いがあると思わぬ不具合を発生させる可能性があります。後処理で吸収する手もありますが、それは余計な処理(不具合の温床)を生むので避けたい方法。

統一するための運用は、必要な住所データが上がってきたら、店名や住所の情報をチェック。表記ゆれがあればお店に連絡をとって統一したい旨を伝えてデータを整えるようにします。

自分ならそうするけど、一般的にはどうなんだろうという疑問が。

多数の住所を公表している企業をチェックしてみることにしました。

チェック対象としては、資金が潤沢で情報管理に十分お金をかけられる企業。お金がなくて思うようにできない情報処理部門は多いですからね。

金満の代表といえば携帯会社。携帯会社専売ショップの住所表記をチェックしてみました。

  • au
    • 保土ケ谷と保土ヶ谷が混在。ケとヶを区別するため、サイト内で店舗検索をするとどちらか一方しか出てきません
  • ソフトバンク
    • 保土ケ谷と保土ヶ谷が混在していますが、表記の揺れを吸収する仕様なので両方検索できます
  • ドコモショップ
    • 保土ケ谷区にドコモショップが無いため運用内容不明
    • 埼玉県鶴ヶ島市はドコモショップが1軒しかないため運用内容不明

ちなみにGoogle検索では、表記の揺れに対してかなり余裕をもたせているため、この程度の違いは吸収して検索できます。

サンプルは少ないですが、大手企業でも表記ゆれに対してさほど厳密に運用しているわけではないことがわかりました。

企業サイトで「保土ケ谷区」で検索するときは、検索漏れがないように、ケとヶ をそれぞれで検索しましょう。Google検索を併用するのも良い方法ですね。

スポンサーリンク

Posted by tama