LHCのデータ量
Networkの現状 米国 ESNET(DoE系) 欧州回線 100Gbps ×4 日本のSINET 平成29年5月 東京大学素粒子物理国際研究センター 図 https://www.sinet.ad.jp/aboutsinet/interconnectivities 米国 ESNET(DoE系) 欧州回線 100Gbps ×4 日本のSINET ・米国回線 西海岸(Pacific Wave)へ100Gbps、 バックアップ用にニューヨーク(MANLAN)へ10Gbps ・欧州回線 シベリア経由でロンドンに10Gbps×2 ・シンガポール 10Gbps
SINETへの要望 ICEPPへのデータ量 常時10Gbps すでに律速段階 LHCのデーターの為ばかりでなく 平成29年5月 東京大学素粒子物理国際研究センター ICEPPへのデータ量 常時10Gbps すでに律速段階 LHCのデーターの為ばかりでなく 国家戦略としてアジアのネットワーク・学術ネットワークのハブとして ・米国回線 米国100Gbpsを2回線以上、 ・欧州回線 シベリア経由で 最低100Gbps×2 ・香港回線の新設 (中国、台湾、韓国のハブが香港 SINETはなく、総務省(JGN-X)の10Gbps 、韓国などには繋がっていない) → アジアのネットワーク・学術ネットワークのハブ アジアの主要国へ 10Gbpsのライン
ビッグデータフロンティアLHC SNSとの比較-その1 世界中で共有 CERN Computer Center 平成29年5月 東京大学素粒子物理国際研究センター SNSとの比較-その1 素粒子物理 民生技術 ATLAS検出器から送出されるデータ:2GB/s YouTubeでアップされるビデオ:9GB/s Facebookでアップされる写真 2.8GB/s LHC(Large Hadron Collider)が生成するデータの規模 年間10PBを超える生データ これを例えば商用のビッグデータと比較する。 データ処理に関する要請 蓄積されるデータ量、それを処理するために必要な計算力、世界規模のデータ共有に必要な帯域 最新の科学は最新の技術に基づく。 [対比]よく知られた事業との比較 世界中で共有 CERN Computer Center Google Data Center LHC4実験の共同研究者10,000人 YouTubeアクティブユーザ10億人
ビッグデータフロンティアLHC SNSとの比較-その2 ATLASで観測されたヒッグス粒子事象 素粒子物理 毎秒1,000事象を記録 平成29年5月 東京大学素粒子物理国際研究センター SNSとの比較-その2 素粒子物理 ATLASで観測されたヒッグス粒子事象 毎秒1,000事象を記録 1億チャンネルを超えるセンサーから 1事象あたり1.4MBのデータ ビッグデータ 一見混沌とした情報の中にある種のパターンを発見するビッグデータ解析。パターンはより深い抽象的な法則の反映。時には予測されない未知のパターンの発見もある。 素粒子反応のパターンを見つけるのがデータ解析。未知のパターンは未知の現象の反映であり、未知の物理事象の手がかりになる。 世界で毎秒6,000ツイート 3.1億人のアクティブユーザ 1ツイート140文字 2017年4月29日9時台のツイート(NTTDATA) 民生技術
ビッグデータ規模比較 年間に送信される電子メール: 2,986PB LHCの年間データ生成量: 15.4PB 平成29年5月 東京大学素粒子物理国際研究センター http://www.wired.com/2013/04/bigdata/ Information Revolution: Big Data Has Arrived at an Almost Unimaginable Scale 年間に送信される電子メール: 2,986PB 年間にFacebookにアップロードされるコンテンツ: 182.5PB Google検索インデックス: 97.7PB カイザーパーマネンテ保険会社のディジタル健康記録: 30.7PB LHCの年間データ生成量: 15.4PB 年間にYouTubeにアップロードされるビデオ: 15.0PB 米国国立気象データセンターデータベース: 6.1PB 米国議会図書館のディジタル蔵書: 5.1PB 米国国勢調査局データ: 3.8PB Nasdaq証券取引データ: 3.1PB 2012年に送信されたツイート: 19TB 電子メール統計では2012年一日あたり1,440億通送信。2016年には2,153億通送信。増加率1.495。サイズをかけると4,479PB程度。 Facebookは
世界をつなぐLHCデータグリッド ともに100Gbpsクラスの国際ネットワークで接続 素粒子物理 WLCG:LHCの世界分散解析網 平成29年5月 東京大学素粒子物理国際研究センター 素粒子物理 WLCG:LHCの世界分散解析網 世界42カ国170サイト ジョブスロット50万 ディスク280PB テープ276PB ともに100Gbpsクラスの国際ネットワークで接続 民生技術 計算グリッド技術 多様な計算資源を統一的に運用できる。 今や、従来の計算機クラスターだけでなく、商用を含むクラウドサービス、HPC俗に言うスパコン、さらには家庭にあるパソコンを動員するボランティアコンピューティングまで網羅。 [対比] グーグルクラウド 18地域100地点 サーバー1,000,000台 ディスク 10,000PB テープ 5,000PB
最先端ソフトウエア技術が物理解析を加速 パターン認識など共通の技術要素 音声認識:音声パターンを単語群に翻訳し文脈を解析する。 平成29年5月 東京大学素粒子物理国際研究センター 音声認識:音声パターンを単語群に翻訳し文脈を解析する。 顔認識:画像から人の顔の要素を判別、その特徴から個人を特定する。 飛跡検出:観測データである多数の点から粒子飛跡を再構成する。 パターン認識など共通の技術要素 データ解析は膨大な計算量を必要とする。世界中の資源を総動員し同時に解析を進める。 検証済みのソフトウエアを世界中に同時に配布する機構 解析に必要な様々な情報を統合したデータベース 解析を加速するための機械学習 世界分散システムの運用状況の自動解析と最適化 素粒子物理 民生技術 ジェット再構成:飛跡やエネルギーからジェット(一群の粒子流)を再構成する。 自動運転:画像から道路境界や障害物、他の移動体を認識し方向や速度を制御する。