読者です 読者をやめる 読者になる 読者になる

瀬戸内エッセイ

Webコンサルタント、プログラミング講師をしています。

エドワード・スノーデンも認める日本語の情報密度の高さ……だけど

インターネット 人間観察

f:id:maocs:20160409002727j:plain

エドワード・スノーデン氏(元米中央情報局(CIA)職員)が、日本語でツイートしたとのこと。

自分で訳したのか翻訳かはさておき、彼の言う「Twitterのチートモードは日本語」というのは、日本語は短い文章で多くの情報を伝えることができるという意味でしょう。
本当に日本語の情報密度は、そんなにも高いのでしょうか。

世界の中の日本語

この研究結果では、日本語で140文字の文章をGoogleで翻訳した結果、英語では平均260文字になったとのこと。
では、世界的に見るとどうなのでしょうか。

中日韓語がTOP3。
最も高いのは中国語ですが、それでも日本語は2番目に高いです。
それにしても、恐ろしいのはデンマーク語ですね。普段どのように会話をしているのでしょうか。

このように日本語、中国語は情報密度が高いとされています。
これに対して、密度ではなく、各言語のツイートの情報量を情報エントロピーで解析をした研究結果があります。

http://www.phontron.com/paper/neubig13sam.pdf
※PDF

この情報量とは、メモリ上のバイト数ではなく、よい抽象的な「シャノンの情報エントロピー」という概念を用いています。
それによると、ツイート上で日本語は英語に続いて情報量が2番目に少ないことになります。

この論文によると、日本語は中国語の次に1文字あたりの情報量が多いとのこと。
これは、漢字とアルファベットを比べると理解できますよね。
にも関わらず、1ツイートあたりの情報量は、英語に続いて小さいのです。

また、この論文結果では、140文字を書き込んだ場合の情報量が英語は500bitに対して、日本語は700bitにもなるとのこと。
すなわち、やはり日本語は1ツイートの情報密度が高いことになります。
にも関わらず、日本語のツイートは100bit(一文字5bitなので約20文字)という情報量の少ないツイートが多いのです。

したがって、日本語はより小さい文字数で表現ができるため、短文のツイートが多いということになります。
もしくは、大して何も考えておらず、意味のない会話が好きな民族なのかもしれない……。