与太郎文庫
DiaryINDEXpastwill


2007年06月17日(日)  ありもせす 〜 漢字カナ変換辞書ソフト 〜

 
http://d.hatena.ne.jp/adlib/20070617
 
 古来、漢字の読みは無原則だった。漢字カナ変換辞書など存在しない。
 そんなソフトを作ろうにも、東さんを「あずま・あづま・ひがし」の
いずれかに特定・分別することは(永久に)不可能である。
 
 JISコード第一水準は、常用漢字2965字(音読画数順)、第二水準
3390字(部首画数順)に分類された。
 すべて4ケタの番号が振ってあるが、読みかたには原則がない。
 
 したがって「島崎藤村」の姓名は「シマザキ・トウソン」ではなく
「トウサキ・トウソン」に統一して、ソート(並べ替え)される。
 これはこれで合理的だったが、気に入らない人たちがいた。
 
「私はトウザキではなく、シマザキだ」という保守派と、「トウザキは
コンピューターの読み方だから、やむをえない」という進歩派である。
 かくて運転免許証の氏名は、しばらく後者に統一されていた。
 
 ちょうど20年前の実態は、専用ワープロ全盛期であって、この問題
が大きな壁になっていたが、実際にキーを打つ女性オペレーターたちは、
昔ながらのタイピストだったから、頓着しなかったのである。
 
── 《電話帳式五十音》が、いまの段階で主流となりつつありますが、
外国人や「読みが分らない」場合にはお手あげです。まことに不便です
が、今回は《音読式・JISコード順》で、お届けするしかありません。
http://d.hatena.ne.jp/adlib/19870426
 生没年月日について 〜 姓名JIS順について 〜
 
>>
 
 社保庁誤入力の主犯は「カナ変換ソフト」か
≪一律変換、「島崎藤村」=「シマサキフジムラ」≫
 
 社会保険庁が昭和54年に年金記録の氏名のカタカナ管理を導入した
際に、漢字の一般的な読み方をカタカナに変換する「漢字カナ変換辞書」
と呼ばれるソフトを開発、使用し、勝手な読み仮名をコンピューターに
入力していたことが16日、同庁の資料から分かった。氏名の正しい読
み仮名を本人に確認することもせず、読み間違いを前提としたシステム
を導入していたわけで、新たな批判を招きそうだ。
 
 年金記録は、32年からそれまでの手書き台帳での管理と並行し、デ
ータをパンチカードに入力する機械処理を導入。37年からは磁気テー
プへの収録を進めた。32年当時は文字をそのまま入力することができ
なかったため、氏名は「島=3800」「崎=3451」「藤=785
4」「村=8618」といった具合に、漢字1文字ごとに4けたの数字
に変換され、パンチカードに入力された。53年までに約5400万件
の氏名が数字記号化された。
 
 その後、社保庁は54年になり、氏名をコンピューターにカタカナで
入力する方式に変更した。ところが、数字記号化されたデータは読み仮
名が分からなかったため「漢字カナ変換辞書」を開発。このソフトによ
って変換された勝手な読み仮名をそのまま、本人に確認することもせず
コンピューターに入力した。
 
 この結果、例えば「島崎藤村」(シマザキトウソン)は「シマサキフ
ジムラ」、「裕子」(ヒロコ)が「ユウコ」、「秀一」(シュウイチ)
が「ヒデカズ」に変換されるなど、誤った読み仮名が多数入力された可
能性がある。
 
 年金記録が5000万件以上も不明になったのは、平成9年の基礎年
金番号導入以前の年金記録が、入力ミスにより不完全だったことが主な
原因とされ、その入力ミスの多くは手書き台帳からの写し間違いといっ
た単純なミスとみられてきた。
 
 しかし、これに加え今回、「漢字カナ変換辞書」の存在が明らかにな
ったことで、氏名の読み誤りはシステムそのものにも原因があったこと
になる。社保庁も「システムとして間違いが起きる構造だった」(青柳
親房運営部長)と責任を認めている。こうしたソフトを導入すれば、将
来的なデータ管理に混乱を来すことは容易に予測されたはずで、54年
当時に社保庁にそうした認識があったかどうかも焦点だ。
http://www.iza.ne.jp/news/newsarticle/politics/dompolicy/57456/
 
<<
 
(20070617)
 


与太郎 |MAILHomePage

My追加