コンピュータでついに日本語の漢字すべてを使用可能に 15年かけて6万字をコード化、国際規格に登録

最新10レス
1番組の途中ですがアフィサイトへの転載は禁止です:2017/12/24(日) 19:39:28.61 ID:SF8n8GmU

コンピューターで全漢字使用可に 6万字コード化

日本語の漢字は、戸籍などに使われているものも含めると6万字あるのに対し、コンピューターは、実は1万字しか
扱うことができません。これに対し、このほど15年越しの作業の末、6万字すべてが統一の規格にまとめられて、
コンピューターがすべての漢字を扱えるようになり、ビッグデータの活用をはじめさまざまな効果が期待されています。

コンピューターで文字を扱うには、1つ1つの文字に、「コード」と呼ばれる世界共通の番号を割りふる必要がありますが、
日本語の漢字で、コードが割りふられているのは1万字だけで、コードが無く、コンピューターが扱えない「外字」は、
戸籍で使われているものをはじめおよそ5万字に上っています。

中には、メーカーなどが独自に対応した外字もありますが、コードが無いために、メーカーごとの互換性が無く、
データを受け渡してもコンピューターが認識できずに「文字化け」してしまったり、ある人の名前に本名の外字を
充てたものと略字を充てたものの2つのデータがあった場合、コンピューター上では、別の人と認識されてしまったり
するなどの問題が起きていました。

このためIPA=情報処理推進機構は平成14年から、経済産業省とともに外字を含めたおよそ6万字の漢字1つ1つに、
コードを割りつける作業を進めた結果、このほど15年越しでようやく完了し、国際規格として登録されました。

この結果「日本語の壁」の1つが取り払われ、外字が使われた名前を正確に表示できたり、地名を含むビッグデータを
正確に分析できたりするなどの効果が期待されています。

IPAの田代秀一参与は「日本人にとって、名前は大事なアイデンティティーで、戸籍では尊重されているがコンピューターが
追いついていなかった。文字を正確に扱えるようにすることは、今後ますます重要になる」と話しています。

■漢字とコンピューターのこれまで

戸籍で使われている文字のうち例えば「渡辺」の「ベ」は「辺」「邊」「邉」など11種類、「斉藤」や「斎藤」の「サイ」は
「斉」「斎」「齊」「齋」などおよそ60種類ありますが、このうちコンピューターが扱えるのは「べ」は3文字、「サイ」は
15文字ほどです。

また「吉田」の「ヨシ」のつくりが「土」になっている漢字も外字です。日本で初めて漢字のコードが作られたのは
昭和53年のことで、当時はコンピューターの能力が低く大量のデータを扱えないことなどから登録された漢字は、
およそ6000字でした。

その後、昭和54年に世界初の日本語ワープロが発売されるなど家庭や企業でパソコンが普及して、さまざまな
漢字を扱う必要が出てきましたが、コードの整備は進まず、コードのない漢字は、それぞれのメーカーがばらばらに
作っていました。

現在は、およそ1万字の漢字にコードが付いていますが、いまだに特定のソフトでなければ表示できない漢字もあり、
対応が急がれていました。

https://www3.nhk.or.jp/news/html/20171224/k10011270111000.html

2番組の途中ですがアフィサイトへの転載は禁止です:2017/12/24(日) 19:56:10.74 ID:k1ewb5l/

いつになったらPCやスマホが対応してくれますかね

3番組の途中ですがアフィサイトへの転載は禁止です:2017/12/24(日) 19:57:51.52 ID:MeZVmlRs

いらない

4番組の途中ですがアフィサイトへの転載は禁止です:2017/12/24(日) 20:01:10.93 ID:6cP22WY9

渡邉美樹

5番組の途中ですがアフィサイトへの転載は禁止です:2017/12/24(日) 20:04:41.14 ID:k1ewb5l/

サイトウさんのサイの字は数十種類あるそうだ ちょっとアホか?と思うところもある

6番組の途中ですがアフィサイトへの転載は禁止です:2017/12/24(日) 20:17:40.58 ID:heCjLxlW

昔の人は中二秒だからめっちゃ難しい漢字作りすぎだし使いすぎ

7番組の途中ですがアフィサイトへの転載は禁止です:2017/12/24(日) 20:37:05.96 ID:cwloznPm

元凶は画数占いだろう
ああいう迷信がなければローマ字の一階建てg/二階建てgの違いと変わらん
うにこーどさんに迷惑かけてんじゃねーよ

8番組の途中ですがアフィサイトへの転載は禁止です:2017/12/24(日) 20:44:28.82 ID:4HLxkDJH

ユニコードさんがんばえー

9番組の途中ですがアフィサイトへの転載は禁止です:2017/12/24(日) 21:21:55.88 ID:2Z7NIvTQ

アルファベットは楽でいいっすわ

10番組の途中ですがアフィサイトへの転載は禁止です:2017/12/24(日) 23:08:31.36 ID:aDS+MuA8

Unicode 10.0に相当するISO/IEC 10646:2017が発行されたということみたい

11番組の途中ですがアフィサイトへの転載は禁止です:2017/12/25(月) 00:01:54.01 ID:5hbwziE5

似たような漢字減らすこと考えようよ

12番組の途中ですがアフィサイトへの転載は禁止です:2017/12/25(月) 00:02:15.35 ID:rA7MZD5+


火火 (一字で”ほのお”)
とかも表示できるんかね。

13番組の途中ですがアフィサイトへの転載は禁止です:2017/12/25(月) 00:34:55.92 ID:aaM5wxmr

俺の仕事的にこれはデカいわ

>ある人の名前に本名の外字を
充てたものと略字を充てたものの2つのデータがあった場合、コンピューター上では、別の人と認識されてしまったり
するなどの問題が起きていました。

これホント困るんだよ

14番組の途中ですがアフィサイトへの転載は禁止です:2017/12/25(月) 00:41:55.59 ID:9z1TeM0r

よくわからんけど全部UTF-8で統一してくれると俺が喜ぶな

15番組の途中ですがアフィサイトへの転載は禁止です:2017/12/25(月) 00:50:42.41 ID:RxhFjoBg

戸籍の電算化ン時に適当に纏めたんじゃねがったのかね?しかし。 平成8年位だったっけ?最近の改正は

16番組の途中ですがアフィサイトへの転載は禁止です:2017/12/25(月) 00:50:50.54 ID:SxEj7sid

>>5
サイトウ で変換すると候補が数十種類でてくるんだろなんだかな

17番組の途中ですがアフィサイトへの転載は禁止です:2017/12/25(月) 01:12:12.40 ID:7T37ICkb

超漢字「・・・」
今昔文字鏡「・・・」

18番組の途中ですがアフィサイトへの転載は禁止です:2017/12/25(月) 01:28:38.92 ID:RxhFjoBg

つか、タイプ打ちン頃はどうしてはったんやろね?

19番組の途中ですがアフィサイトへの転載は禁止です:2017/12/25(月) 01:30:03.71 ID:RxhFjoBg

つうてもまだ、3,4代遡れば手書きの戸籍か

20番組の途中ですがアフィサイトへの転載は禁止です:2017/12/25(月) 08:58:27.47 ID:r8odI9Lk

中国のパクリ

21番組の途中ですがアフィサイトへの転載は禁止です:2017/12/27(水) 19:03:54.79 ID:dz3tOxKw

日本語の漢字?
日本語の中国語ってどういう意味?


このスレッドは過去ログです。