ビッグデータ(Big data)の分析例
APNICのIPv4アドレス割り当て先のシェア

「ビッグデータ」というのは、超巨大なデータ群をコンピュータによる高速演算などを活用して、多次元分析、相関分析、回帰分析、推定、検定、分散分析などの分析を適用したデータ分析をし、新たな知見を創発し、説明できるようにする…というような、最近の流行文句です。

遺伝子情報の分析(ゲノム解析)とか、高度医療の分野ではいろんなソフトが出ていて、ガンガン活用されているようです。

が、数学的な検定作業とかって、大変ですよ。

クラスタ分析だけをとっても、ナントカ法というのが複数あって、それによって結果が違うし。

そうすると、統計分析パッケージを買ってきてお手軽に適用して「ナントカ法で分析した結果です」とシレっと言ってしまうと、「各種技法の中で、その分析法を採用するのが正しいと、どうして言えるのですか?」というようなツッコミが入る。

それを説明できるようにせねばならないので、大変なのですね。

広告業者の売り込み文句まがいのことで「研究です」と言い切るようなのは許されませんから、文系的研究では、こういった切り口からの研究が一般化するのは、まだ少し時間がかかるのではないかと思います。

ということで、以下では、数学的な検定作業は行いません。

このページでは、「人手で確認するには、分量が多すぎて無理な作業」を扱うという程度の意味で、「ビッグデータ」と呼称することにします。

目次


APNICのIPv4アドレス割り当て先のシェアを分析してみた

今はIPv6という技術なのですが、それ以前は、IPv4という技術を用いてインターネット閲覧やHP設置のために必要なアドレス数(番地)を割り当てていました。

ところが、その番地の数には限りがありました。

具体的には全世界で2の32乗個を分け合うことになるので、理論値では42億9496万7296個(-2個)が限界です。

ところが、例えば北朝鮮では、その番地を1024個しか割り当てられていません。
一国全体として、1024個の番地しか持っていないのですよ。

で、先頭と終端のアドレスの2個分は、実際には使えないので、1022個しかサーバを設置できません。

これは、ものすごく簡略化して言うと、北朝鮮の場合、250個のメール送信サーバと250個のメール受信サーバと250個のホームページと250組織のインターネット接続用サーバを設置したら、もうそれ以上は使えないよね…ということです。

日本全国でインターネット接続とホームページ設置とメールを使えるのが250の企業しか存在しないよ…なんて、あり得ませんね?

普通、一国の政府には、議会、中央政府の各省庁、国立大学、大学の付属病院、軍、軍の研究所などなど…中央政府関連の機関だけでも相当な数の組織が存在すると思います。地方行政単位まで含めると、もっと増えるでしょう。
たった1022個の番地しかないのですから、中央政府の関連組織だけで、割り当てアドレスを使い尽くしてしまうのではないでしょうか。
都道府県や市町村レベルにもアドレスを分け与える余地などどう考えてもあり得ません。
当然、民間人に利用させる余地など、全くないでしょう。

だから、インターネット上での番地の確保は、国力を測る指標として使えるということになるのですね。

そういった番地の割り当て作業と(アジア・太平洋地域の)各国・各地域の利害調整をしているのが、APNIC(Asia-Pacific Network Information Centre)という国際団体です。

分析に用いたデータは、APNIC(Asia-Pacific Network Information Centre)の2013/03/15付けのデータを用いました。こういうデータはAPNICのftpサイトから取得できます。

IPv4のアドレスは枯渇したので、事実上、これでシェアはほぼ固定になっているはずです。

IPv4のアドレス数は有限なリソースですので、その保有は、ある意味では国家間(56箇国)の「陣取り合戦」の様相を呈していました。

これは、バーチャル空間上での領土問題なのです。

すなわち、「各国・各地域がどのくらいIPv4のアドレスを持っているか?」というのを見るだけで、

  1. 「各国の電子空間上での領土の広さ」を推し量れます。
  2. アドレスを押さえるには毎年毎年、金銭的な裏付けが必要なので、「各国の実質的な経済力」を推し量れます。
  3. アドレスを押さえるにはAPNICという国際団体で自己の主張を通さねばなりませんので、「各国の(民間企業群の総力としての)政治的影響力」を推し量れます。

はい、では集計表。

順位 ccTLD 地域名 保有アドレス総数 割合(%)
0 ALL DAT APNIC IPv4総計 849550848 100.00000%
1 CN 中国 330026496 38.84717%
2 JP 日本 201965056 23.77316%
3 KR 韓国 112240384 13.21173%
4 AU オーストラリア 47792896 5.62567%
5 TW 中華民国(台湾) 35398144 4.16669%
6 IN インド 34862848 4.10368%
7 ID インドネシア 17445376 2.05348%
8 VN ベトナム 15560448 1.83161%
9 HK 香港 11776768 1.38623%
10 TH タイ 8561408 1.00776%
11 NZ ニュージーランド 6923520 0.81496%
12 MY マレーシア 6350080 0.74746%
13 SG シンガポール 6089728 0.71682%
14 PH フィリピン 5385984 0.63398%
15 PK パキスタン 5181952 0.60996%
16 BD バングラデッシュ 950016 0.11183%
17 LK スリランカ 535296 0.06301%
18 NP ネパール 474112 0.05581%
19 MO マカオ 324864 0.03824%
20 KH カンボジア 235776 0.02775%
21 MN モンゴル 207360 0.02441%
22 BN ブルネイ・ダルサラーム 196096 0.02308%
23 NC ニューカレドニア 151552 0.01784%
24 GU グアム 148736 0.01751%
25 FJ フィジー 136448 0.01606%
26 US アメリカ 131584 0.01549%
27 AF アフガニスタン 110336 0.01299%
28 LA ラオス 56832 0.00669%
29 PG パプアニューギニア 55296 0.00651%
30 MV モルディブ 54784 0.00645%
31 PF フランス領ポリネシア 41472 0.00488%
32 BT ブータン 25600 0.00301%
33 MM ミャンマー 25600 0.00301%
34 WS 西サモア 17664 0.00208%
35 MP 北マリアナ諸島 13312 0.00157%
36 SB ソロモン諸島 11520 0.00136%
37 VU バヌアツ 11520 0.00136%
38 NR ナウル 8448 0.00099%
39 CK クック諸島 8192 0.00096%
40 TV ツバル 8192 0.00096%
41 TO トンガ 7168 0.00084%
42 FM ミクロネシア連邦 6144 0.00072%
43 PW パラオ 5120 0.00060%
44 AS アメリカ領サモア 4096 0.00048%
45 AT オーストリア 4096 0.00048%
46 TL 東ティモール 4096 0.00048%
47 IO イギリス領インド洋地域 3072 0.00036%
48 WF ウォリス・フツナ諸島 3072 0.00036%
49 MH マーシャル諸島 2048 0.00024%
50 MU モーリシャス 2048 0.00024%
51 NU ニウエ 2048 0.00024%
52 TK トケラウ諸島 2048 0.00024%
53 NF ノーフォーク諸島 1536 0.00018%
54 KI キリバス 1024 0.00012%
55 KP 北朝鮮 1024 0.00012%
56 AP アジア・太平洋複数地区 256 0.00003%
57 GB イギリス(グレートブリテン) 256 0.00003%

黄色を付けたところでわかると思いますが、中華人民共和国の特別行政区は別立てで計上されています。

それを合算した上で、その他のシェアが1%未満の国家・地域をひとまとめにすると、以下のような表になりました。

順位 ccTLD 地域名 保有アドレス総数 割合(%)
0 ALL DAT APNIC IPv4総計 849550848 100.00000%
1 CN+HK+MO 中国+香港+マカオ 342128128 40.27165%
2 JP 日本 201965056 23.77316%
3 KR 韓国 112240384 13.21173%
4 AU オーストラリア 47792896 5.62567%
5 TW 中華民国(台湾) 35398144 4.16669%
6 IN インド 34862848 4.10368%
7 ID インドネシア 17445376 2.05348%
8 VN ベトナム 15560448 1.83161%
9 TH タイ 8561408 1.00776%
10 Others その他の諸国・諸地域計 33596160 3.95458%

小数点以下を四捨五入でグラフ化してみました。

APNIC_IPv4_AddressShare_20130315

※国旗の画像は、ウィキメディア・コモンズから、パブリックドメインの画像を取得して使っています。

はい。こんな感じです。

…ということで、GDPで、日本は世界第3位であり、中国は世界第2位であるという現状をハッキリと裏付ける結果になっていますね。

現実は、(たとえ認めたくない人がいるとしても)直視せねばなりません。

ところで、国民一人あたりのアドレス数で見た場合はどうでしょうかね?

おそらく、2000年代に「インターネット大国」と呼ばれた韓国が一位になるだろうと予想しますが…。

注意:その際、国連機関の統計を使うなどして、集計元の年度や出典を揃えないと意味があるデータは出てきません。

楽ちんに情報にアクセスしたい場合はGoogle Public Data Explorerを使うと良いでしょう。

セキュリティ対応インターネット サーバー数(人口 100万人あたり)」のグラフだと、こんな風な結果が出ます。
同じデータを以下のように見せることもできます。を押すと、で時系列での変化が動画再生されます。

はい。やっぱり予想通りの結果でありました。

これは、たぶん、金大中大統領が1999年3月に策定し、2002年まで実施した「サイバーコリア21(Cyber Korea 21)」政策の成果だと言えるだろうと思うのですが、2009年、2010年頃の急激な動きは一体、何なのでしょうね?

もちろん、我が国でもミレニアム政策の一環として、「インパク」(インターネット博覧会)が2000年12月31日~2001年12月31日の1年間、行われましたね。

これは森喜朗内閣の時の実施ですが、それは2000年5月に小渕恵三総理が急死したためであって、実質的には(携帯電話大好きで有名だった)小渕内閣の政策でしょう。

でも、なんだか上手く行かなかった。全然盛り上がらなかったし。

韓国と日本とで、どうしてこんなに差が出たんでしょうね?

なお、台数だけで見ると、「セキュリティ対応インターネット サーバー数」のようなグラフになるようです。

単純な台数だけで見ても、やっぱり、韓国に負けています。

電気代が高いとサーバ維持費は高くなります。

日本企業が、サーバを韓国に設置し、必要に応じてインターネット回線を使って情報を放り投げたり引き出したりする方法を取っているのですね。

本社が東京にある会社が、「電気代が関東よりも安い」という理由で福岡にデータセンターを設置したとします。

そうなると、「あれ? 福岡と韓国とで、絶対的な差はあるか?」()という話になりますね?

インターネットさえ(高速に)繋がっていれば、社内文書をやりとりするサーバは、地球の裏側の国にあっても何ら問題はありません。

このようにして、コストカットを図っているんですよ。

新しい空港もできたし、情報インフラへの投資もかなりやっている、となれば、韓国は、今後、第二のシンガポールとなって行くのでしょう。

日本は、関空のハブ化も上手く行っていないように見受けられますし、各地に限界集落ができている所にTPPで農産物を入れるとなれば、どうやら、ピノチェト政権時代のチリや、1995年頃のアルゼンチンのようになって行くような予感ですね。
フランスは農業の企業化を政府主導でやって、耕地面積も着実に増やしていますが、日本では、選挙のことを考えると、どの政党が政権与党であっても、そんなことできそうな雰囲気でもないし…。

経済学や政治学は私の専門外なのでよくわかりませんが、これらのことは、経済学や政治学を勉強する学生に、是非とも検証して頂きたいと思います。

まぁ、そんなわけで、以上のように、巨大なデータを集計すると、(たとえ認めたくない人がいるとしても直視せねばならない)現実が明らかになるよ、という例を示しました。


今後は、インターネットの番地割り当てはIPv6で進められることとなります。

容量は事実上、無限大なので、「国威のための陣取り合戦」ではなく、本当に必要な分、実体経済に見合った分の取得申請と割り当てになるでしょう。

従って、上記と同様の分析をIPv6でやれば、「ある年のある月毎に各国各地域での増加率」を見て行けば、おそらくは、経済指標とリンクした結果が出てくるのではないかと予測されます。

それが「株価が上がる《予兆》として使える」のか? あるいは、「実体経済が上下した後で、それを《追認する》形で出てくる」のか? については、よくよく分析してみる必要があると思いますが。

なお、アフリカについてはAfriNICが割り当てをしています。
アフリカにおいて、投資対象の国をどこにするか、その候補を絞り込むのに使えるでしょう。
だって、インターネットって、有線にしろ、無線にしろ、しょっちゅう停電が起きるような所では使いのもになりませんよね?
常用できる電力・電線・電波システムなど各種複合的なインフラが正常に稼働する環境が確保されていなければ、アドレスを保有する意味などほとんど無いのです。
だから、安心できる投資先の国を選ぶ時に有望な観点でしょう。


:情報伝送経路とその経由時間についての補足

但し、海底ケーブルの関係上、インターネットでの伝送経路で見た場合、実は韓国は非常に遠い国です。

伝送経路で見た限り、台湾の方が近い。

韓国との電子データの伝送は、日本海(日本海;Japan SEA。大事なことだから3回書きました)を海底ケーブルで直結されているわけではなくて、日本←→アメリカ←→韓国と、太平洋を横断して伝送されているようです。

ちょっと実験してみました。

まず、台湾の最高学府(学部組織を持たない大学院大学)、中央研究院にアクセスする経路をtracert コマンドで計測。

C:\>tracert hanji.sinica.edu.tw

hanji.sinica.edu.tw [140.109.4.111] へのルートをトレースしています
経由するホップ数は最大 30 です:

1 <1 ms <1 ms <1 ms JITAKU Router [192.168.***.***]←自宅ルータ
2 13 ms 13 ms 13 ms example.jp [20*.***.***.***]←契約先プロバイダ
3 13 ms 13 ms 13 ms 21*.***.***.***←日本国内の弱小プロバイダ
4 20 ms 14 ms 14 ms 21*.***.***.***←日本国内の弱小プロバイダ
5 14 ms 14 ms 15 ms tky001bb10.IIJ.Net [58.138.100.209]←日本国内の大手プロバイダ
6 14 ms 14 ms 14 ms tky001ix04.IIJ.Net [58.138.100.26]←日本国内の大手プロバイダ
7 13 ms 14 ms 14 ms 202.249.2.192←日本のWIDE プロジェクト大手町相互接続点
8 44 ms 44 ms 44 ms 202.169.174.150←Academia Sinica Computing Centre(台湾中央研究院計算機センター)
9 45 ms 45 ms 45 ms 202.169.174.78←Academia Sinica Computing Centre(台湾中央研究院計算機センター)
10 48 ms 46 ms 46 ms 140.109.255.214←Academic Sinica(台湾中央研究院)
11 44 ms 45 ms 44 ms hanji.sinica.edu.tw [140.109.4.111]←Academic Sinica(台湾中央研究院)

トレースを完了しました。

C:\>

こんな感じ。国同士が直結していて、情報はだいたい44ミリ秒で情報到達しています。

次に、韓国の最高学府、ソウル大学校(旧、京城帝国大学ですね…。小倉進平、時枝誠記、河野六郎など錚々たる言語学者が教授を務めました。)へのアクセスの場合。

C:\>tracert snu.ac.kr

snu.ac.kr [147.46.10.58] へのルートをトレースしています
経由するホップ数は最大 30 です:

1 <1 ms <1 ms <1 ms JITAKU Router [192.168.***.***]←自宅ルータ
2 15 ms 13 ms 13 ms example.jp [20*.***.***.***]←契約先プロバイダ
3 13 ms 13 ms 36 ms 21*.***.***.***←日本国内の弱小プロバイダ
4 14 ms 14 ms 14 ms 21*.***.***.***←日本国内の弱小プロバイダ
5 14 ms 14 ms 14 ms tky001bb10.IIJ.Net [58.138.100.209]←日本国内の大手プロバイダ
6 14 ms 14 ms 14 ms tky009bf00.IIJ.Net [58.138.80.17]←日本国内の大手プロバイダ
7 14 ms 14 ms 14 ms tky001ix05.IIJ.Net [58.138.82.18]←日本国内の大手プロバイダ
8 119 ms 15 ms 15 ms tenge4-2.br01.tok01.pccwbtn.net [63.218.147.5]←アメリカ、バージニア州のBeyond The Network America, Inc.
9 46 ms 47 ms 47 ms 203.233.35.241←韓国、ソウルの超大手プロバイダ、DACOM BORANET
10 46 ms 46 ms 47 ms 1.213.104.33←韓国、ソウルの超大手プロバイダ、DACOM BORANET
11 48 ms 47 ms 50 ms 211.40.6.10←韓国、ソウルの超大手プロバイダ、DACOM BORANET
12 47 ms 47 ms 53 ms 1.213.146.198←韓国、ソウルの超大手プロバイダ、DACOM BORANET
13 50 ms 47 ms 47 ms 1.213.107.162←韓国、ソウルの超大手プロバイダ、DACOM BORANET
14 48 ms 47 ms 47 ms 1.208.12.146←韓国、ソウルの超大手プロバイダ、DACOM BORANET
15 47 ms 48 ms 49 ms 1.213.12.94←韓国、ソウルの超大手プロバイダ、DACOM BORANET
16 49 ms 48 ms 49 ms 61.42.0.234←韓国、ソウルの超大手プロバイダ、DACOM BORANET
17 49 ms 48 ms 49 ms 147.46.254.187←韓国、ソウル大学校
18 * * * 要求がタイムアウトしました。←ここから先、たぶん、攻撃予防対策などで応答を拒否しているので無反応に見える。
19 * * * 要求がタイムアウトしました。
20 * * * 要求がタイムアウトしました。
21 * * * 要求がタイムアウトしました。
22 * * * 要求がタイムアウトしました。
23 * * * 要求がタイムアウトしました。
24 * * * 要求がタイムアウトしました。
25 * * * 要求がタイムアウトしました。
26 * * * 要求がタイムアウトしました。
27 * * * 要求がタイムアウトしました。
28 * * * 要求がタイムアウトしました。
29 * * * 要求がタイムアウトしました。
30 * * * 要求がタイムアウトしました。

トレースを完了しました。

C:\>

と、このように、一度、アメリカを経由しています。

で、DACOM BORANETについて、ちょっと調べてみましたが、アドレスをものすごくたくさん持っていました。
日本で言えば、ASAHI NET並みかもしれません。

韓国の大学は、軒並み、目的サーバの保有大学に到達した後は、目的サーバそのものに到達できず、タイムアウトでした。
どうやら、不正アクセス対策をかなり厳しく取っているみたいです。

ということで、韓国の場合はだいたい49ミリ秒で情報伝送ができることが確認できました。

台湾よりも5ミリ秒も多いのは、アメリカ経由であることと、DACOM BORANETが同じ会社内で、さんざんたらい回しをした結果です。

DACOM BORANETがサーバの微調整をもっとキチンとやれば、伝送速度はもっと向上すると思われます。

5ミリ秒の差は、かなり大きいですからね…。株のシステムトレードなどでは、致命的でしょう。

あと、日本の大手商社が暗号化していないメールを韓国に送信すると、中継サーバの方でゴニョゴニョされて実は取引関係の情報がダダ漏れということもあり得ますね。
インターネットというのは、元々そういう仕組みですから、これは別に韓国だけに限ったことではありません。
ですが、こうやって、実際に情報が通る経路を見てみないと、なんだか実感できないのが人間というものです。


Ver1.0:2013/03/20記


一つ上へ戻る[Go to top page]

copyright 2013~ 谷本玲大
http://www.tanimoto.to/