与太郎文庫
DiaryINDEX|past|will
2007年06月17日(日) |
ありもせす 〜 漢字カナ変換辞書ソフト 〜 |
http://d.hatena.ne.jp/adlib/20070617 古来、漢字の読みは無原則だった。漢字カナ変換辞書など存在しない。 そんなソフトを作ろうにも、東さんを「あずま・あづま・ひがし」の いずれかに特定・分別することは(永久に)不可能である。 JISコード第一水準は、常用漢字2965字(音読画数順)、第二水準 3390字(部首画数順)に分類された。 すべて4ケタの番号が振ってあるが、読みかたには原則がない。 したがって「島崎藤村」の姓名は「シマザキ・トウソン」ではなく 「トウサキ・トウソン」に統一して、ソート(並べ替え)される。 これはこれで合理的だったが、気に入らない人たちがいた。 「私はトウザキではなく、シマザキだ」という保守派と、「トウザキは コンピューターの読み方だから、やむをえない」という進歩派である。 かくて運転免許証の氏名は、しばらく後者に統一されていた。 ちょうど20年前の実態は、専用ワープロ全盛期であって、この問題 が大きな壁になっていたが、実際にキーを打つ女性オペレーターたちは、 昔ながらのタイピストだったから、頓着しなかったのである。 ── 《電話帳式五十音》が、いまの段階で主流となりつつありますが、 外国人や「読みが分らない」場合にはお手あげです。まことに不便です が、今回は《音読式・JISコード順》で、お届けするしかありません。 http://d.hatena.ne.jp/adlib/19870426 生没年月日について 〜 姓名JIS順について 〜 >> 社保庁誤入力の主犯は「カナ変換ソフト」か ≪一律変換、「島崎藤村」=「シマサキフジムラ」≫ 社会保険庁が昭和54年に年金記録の氏名のカタカナ管理を導入した 際に、漢字の一般的な読み方をカタカナに変換する「漢字カナ変換辞書」 と呼ばれるソフトを開発、使用し、勝手な読み仮名をコンピューターに 入力していたことが16日、同庁の資料から分かった。氏名の正しい読 み仮名を本人に確認することもせず、読み間違いを前提としたシステム を導入していたわけで、新たな批判を招きそうだ。 年金記録は、32年からそれまでの手書き台帳での管理と並行し、デ ータをパンチカードに入力する機械処理を導入。37年からは磁気テー プへの収録を進めた。32年当時は文字をそのまま入力することができ なかったため、氏名は「島=3800」「崎=3451」「藤=785 4」「村=8618」といった具合に、漢字1文字ごとに4けたの数字 に変換され、パンチカードに入力された。53年までに約5400万件 の氏名が数字記号化された。 その後、社保庁は54年になり、氏名をコンピューターにカタカナで 入力する方式に変更した。ところが、数字記号化されたデータは読み仮 名が分からなかったため「漢字カナ変換辞書」を開発。このソフトによ って変換された勝手な読み仮名をそのまま、本人に確認することもせず コンピューターに入力した。 この結果、例えば「島崎藤村」(シマザキトウソン)は「シマサキフ ジムラ」、「裕子」(ヒロコ)が「ユウコ」、「秀一」(シュウイチ) が「ヒデカズ」に変換されるなど、誤った読み仮名が多数入力された可 能性がある。 年金記録が5000万件以上も不明になったのは、平成9年の基礎年 金番号導入以前の年金記録が、入力ミスにより不完全だったことが主な 原因とされ、その入力ミスの多くは手書き台帳からの写し間違いといっ た単純なミスとみられてきた。 しかし、これに加え今回、「漢字カナ変換辞書」の存在が明らかにな ったことで、氏名の読み誤りはシステムそのものにも原因があったこと になる。社保庁も「システムとして間違いが起きる構造だった」(青柳 親房運営部長)と責任を認めている。こうしたソフトを導入すれば、将 来的なデータ管理に混乱を来すことは容易に予測されたはずで、54年 当時に社保庁にそうした認識があったかどうかも焦点だ。 http://www.iza.ne.jp/news/newsarticle/politics/dompolicy/57456/ << (20070617)
|