はてな流大規模データ処理.

Slides:

Advertisements

Similar presentations

ファイルキャッシュを考慮したディスク監視のオフロード

Advertisements

セキュリティ機構のオフロードを考慮した仮想マシンへの動的メモリ割当

オペレーティングシステム第10回仮想記憶管理(1)

■パス検索各種ファイルを操作するには、まずパス名をiノードに変換しなければならない。以下にパス名をiノードに変換する関数の説明を行う。

Webアプリケーション開発の基本的なポイント

LZ圧縮回路の設計とハード・ソフト最適分割の検討電子情報デザイン学科高性能計算研究室４回生　中山　和也 2009/2/27.

SAP システムにおける SQL Server 運用ノウハウ

知識情報演習Ⅲ（後半第1回）辻慶太（水）

全体ミーティング (4/25) 村田雅之.

分散コンピューティング環境上の Webリンク収集システムの実装

SQL J2EE I 第3回 /

AllReduce アルゴリズムによる QR 分解の精度について

検索エンジンに関して The Anatomy of a Large-Scale Hypertextual Web Search Engine

ファイルシステムキャッシュを考慮した仮想マシン監視機構

３－２．データを取り出す２００４年　５月２０日（木） 01T6074X 茂木啓悟.

第７章　データベース管理システム７．１データベース管理システムの概要７．２データベースの格納方式７．３問合せ処理.

ファイルシステムキャッシュを考慮したIDSオフロード

LogStructuredFileSystem Servey

(B2) 親： minami, kazuki 多様な認証機器に対応する認証システム (B2) 親： minami, kazuki.

パフォーマンスチューニング on Rails

IIR輪講復習 #5 Index compression

アルゴリズム入門.

マイクロソフト Access での SQL 演習第１回 SQL問い合わせ（クエリ）

メモリ管理 4.3, 4.4 章さだ.

サスペンドした仮想マシンのオフラインアップデート

Java ソフトウェア部品検索システム SPARS-J のためのリポジトリ自動更新機能の実現

実際にたたいてAPI APIの初歩からプログラムまで使用方法のAtoZ.

MPIによる行列積計算情報論理工学研究室渡邉伊織情報論理工学研究室渡邉伊織です。

IIR輪講復習 #4 Index construction

型付きアセンブリ言語を用いた安全なカーネル拡張

SQL パフォーマンスチューニング～カバーリングインデックス/クエリヒントの利用～

IIR輪講復習 #1 Boolean retrieval

3-10. MySQLシステムの管理　2004年6月10日　　大北高広　　　　　　　　　　　　　　　０１T6010F.

定兼邦彦今井浩東京大学理学系研究科情報科学専攻

VM専用仮想メモリとの連携による VMマイグレーションの高速化

IaaS型クラウドにおけるインスタンス構成の動的最適化手法

人工知能特論９．パーセプトロン北陸先端科学技術大学院大学　鶴岡慶雅.

実行時情報に基づく OSカーネルのコンフィグ最小化

仮想メモリを用いた VMマイグレーションの高速化

IIR輪講復習 #17 Hierarchical clustering

IIR輪講復習 #3 Dictionaries and tolerant retrieval (前半)

仮想計算機を用いたサーバ統合における高速なリブートリカバリ

情報検索(６) メディア検索の仕組み教員岩村雅一

３－６．インデックスについて３－７．関数と併用されることの多いMySQLコマンド

オペレーティングシステムJ/K (仮想記憶管理)

第7回授業計画の修正中間テストの解説・復習前回の補足（クロックアルゴリズム・PFF) 仮想記憶方式のまとめ特別課題について

Internet広域分散協調サーチロボットの研究開発

オープンソース開発支援のためのソースコード及びメールの履歴対応表示システム

半構造化テキストに対する文字列照合アルゴリズム

変換されても変換されない頑固ベクトルどうしたら頑固になれるか頑固なベクトルは何に使える？

未使用メモリに着目した複数ホストにまたがる仮想マシンの高速化

プログラミング 4 整列アルゴリズム.

複数ホストにまたがって動作する仮想マシンの障害対策

VMMのソフトウェア若化を考慮したクラスタ性能の比較

情報コミュニケーション入門ｂ第１１回 Web入門（２）

VMが利用可能なCPU数の変化に対応した並列アプリケーション実行の最適化

Peer-to-Peerシステムにおける動的な木構造の生成による検索の高速化

第5回メモリ管理（２）オーバレイ方式論理アドレスとプログラムの再配置静的再配置と動的再配置仮想記憶とメモリ階層セグメンテーション

Data Clustering: A Review

B03 量子論理回路の最適化に関する研究西野哲朗，垂井淳，太田和夫，國廣昇電気通信大学　情報通信工学科.

仮想マシンに対する高いサービス可用性を実現するパケットフィルタリング

再帰CTE を使って遊ぼう大阪#9 2012/04/14.

アルゴリズムとデータ構造1 2009年6月15日

クラスタリングを用いたベイズ学習モデルを動的に更新するソフトウェア障害検知手法

CO-Client Opeartion 1.1 利用履歴データベースの設計 (スキーマバージョン対応)

テキストデータベース.

アルゴリズムとデータ構造 2010年6月17日

L4-Linux のメモリ管理における問題点とその解決策

SQL J2EE I (データベース論) 第3回 /

ベイジアンネットワークとクラスタリング手法を用いたWeb障害検知システムの開発

Presentation transcript:

はてな流大規模データ処理

アジェンダ大規模なデータ OS のキャッシュ MySQLの運用大規模データアプリケーションの開発

大規模なデータ

大規模データはてなブックマーク mysql> select count(*) from relword; +----------+ | 51780147 | 1 row in set (0.00 sec)

はてなブックマークのデータ規模レコ―ド数データサイズ 1,073万エントリー 3,134万ブックマーク 4,743万タグエントリー 2.5GB ブックマーク 4GB タグ 3.4GB HTML 100GB超

大規模データへのクエリ mysql> select url from entry use index(hoge) where eid = 9615899; ... 200秒待っても結果が返って来ない

大規模データの難しい所メモリ内で計算できない

メモリとディスクの速度差メモリはディスクの100倍以上高速メモリ 7 .5 GB/sec ディスク 58MB/sec % sudo /sbin/hdparm -tT /dev/sda /dev/sda: Timing cached reads: 15012 MB in 1.99 seconds = 7525.03 MB/sec Timing buffered disk reads: 176 MB in 3.02 seconds = 58.37 MB/sec

スケーリングの要所 CPU 負荷のスケーリングは簡単 I/O 負荷のスケーリングは難しい同じ構成のサーバーを増やす、LB で分散 Web, APサ―バ, クローラー I/O 負荷のスケーリングは難しい大規模データデータベース

大規模データを扱うコツいかにしてメモリで済ませるかデータ量の増加に強いアルゴリズム、データ構造圧縮、情報検索技術局所性を活かした分散例: 線形探索 → 二分探索 O (n) → O (log n) 圧縮、情報検索技術

大規模データを前に知っておくべき事 OS のキャッシュ層分散を考慮した RDBMS の運用アルゴリズムとデータ構造

OS のキャッシュ

メモリとディスクメモリとディスクの速度は 150倍メモリを使ってディスクアクセスを減らす

OS のキャッシュ Linux のページキャッシュの特性

Linux (x86) のページング機構仮想メモリ機構の基盤論理的なリニアアドレスを物理的な物理アドレスへ変換 0xbffff444 (MMU) 物理アドレス 0x00002123

Linux (x86) のページフラットメモリモデルページ = 仮想メモリの最小単位 4kb の構造体ページキャッシュ = カーネルバッファに残った page構造体

Linux のページキャッシュとディスクディスクの内容をメモリに読み込む作成したページは破棄せずに残す = ページキャッシュページが作成される作成したページは破棄せずに残す = ページキャッシュ例外を除きすべての I/O に透過的に作用するディスクのキャッシュを担う箇所 ... VFS

VFS vfs ext2 ext3 ext4 xfs tmpfs デバイスドライバ

VFSの役割 (1) ファイルシステム実装の抽象化 (2) パフォーマンスページキャッシュ

VFS データ構造関係図 superblock inode (1) inode番号 inode inode dentry file * inode dentry file 1 1 1 1 1 1 address_space 1 (2) offset * page page page

Linux はページ単位でディスクをキャッシュファイルの一部をキャッシュできる address_space → page(s) は Radix Tree 検索コストはファイルの大きさにほとんど依存しない

キャッシュの単位ページ = 仮想メモリの最小単位ページキャッシュ ≠ ファイルキャッシュページキャッシュ = カーネルバッファに残った page構造体

メモリが空いていればキャッシュ制限なし sar –r で確認 % sar -r 1 10000 Linux 2.6.11-co-0.6.4 (colinux) 05/28/07 19:50:32 kbmemfree kbmemused %memused kbbuffers kbcached kbswpfree kbswpused %swpused kbswpcad 19:50:33 5800 1005888 99.43 28244 694088 262132 4 0.00 0 19:50:34 5800 1005888 99.43 28244 694088 262132 4 0.00 0 19:50:35 5800 1005888 99.43 28244 694088 262132 4 0.00 0 19:50:36 5800 1005888 99.43 28244 694088 262132 4 0.00 0

メモリを増やすことで I/O 負荷軽減メモリ 4GB メモリ 8GB 14:10:01 CPU %user %nice %system %iowait %idle 14:20:01 all 8.58 0.00 5.84 16.58 69.00 14:30:01 all 7.41 0.00 5.14 17.81 69.63 14:40:01 all 7.74 0.00 4.97 18.56 68.73 14:50:01 all 7.02 0.00 5.01 16.24 71.72 メモリ 8GB 14:10:01 CPU %user %nice %system %iowait %idle 14:10:01 all 18.16 0.00 11.56 0.80 69.49 14:20:01 all 12.48 0.00 9.47 0.88 77.17 14:30:01 all 14.20 0.00 10.17 0.91 74.72 14:40:01 all 13.25 0.00 9.74 0.75 76.25

透過的に作用する OS起動直後に数GBのファイルを read した結果 18:20:01 kbmemfree kbmemused %memused kbbuffers kbcached kbswpfree kbswpused %swpused kbswpcad 18:30:01 3566992 157272 4.22 11224 50136 2048276 0 0.00 0 18:40:01 3546264 178000 4.78 12752 66548 2048276 0 0.00 0 18:50:01 112628 3611636 96.98 4312 3499144 2048232 44 0.00 44

キャッシュを前提にした I/O 軽減策データ規模 < 物理メモリなら全てキャッシュできる経済的コストとのバランスを考慮現状のコモディティ: 8GB ~ 16GB

キャッシュ仕切れない規模になったら複数サーバーにスケールさせるただし単純に増やさない自前でインデックスを作る CPU 負荷分散では単純に増やす I/O分散では局所性を考慮する自前でインデックスを作る

単純に台数を増やす場合キャッシュできない割合は相変わらずそのまますぐに再度ボトルネックにコピー

局所性を考慮した分散アクセスパターンを考慮した分散キャッシュできない箇所がなくなるメモリはディスクの 150倍アクセスパターンB アクセスパターンA

具体的には RDBMS のテーブル単位での分割検索のインデクスを辞書の途中で分割する用途ごとにシステムを「島」に分けるパーティショニング検索のインデクスを辞書の途中で分割する A ~ E まではサーバ A F ~ I まではサーバB ... 用途ごとにシステムを「島」に分ける

リクエストパターンで「島」に分割 proxy proxy 画像API etc. bot / feed 通常のリクエスト AP DB

ページキャッシュを考慮した運用 OS 起動後すぐにサーバを投入しない性能評価はキャッシュが最適化された時に分散は局所性を考慮してデータ規模に合わせて搭載メモリを調整するメモリ増設で対応しきれないなら分散

分散を考慮した MySQLの運用

MySQL 運用のポイント OS のキャッシュを活かすインデックスを適切に設定するスケーリングを前提とした設計

OS のキャッシュを活かす全データサイズに気を配るデータ量 < 物理メモリを維持メモリが足りない場合は増設 etc.

インデックス重要インデックス = 索引 B木 O(n) → O(log n)

インデックスの効果例 : 4,000万件のタグデーブルからの検索インデックスなし = 線形探索 → O(n) → 最大 4,000 万回の探索インデックスあり = B木で二分探索 → O(log n) → log24000万 = 最大 25.25 回

インデックスの効果の例 mysql> select url from entry where eid = 9615899; +------------------------------------------------------------------------------+ | url | | http://builder.japan.zdnet.com/member/u87200/blog/2008/08/10/entry_27012867/ | 1 row in set (0.00 sec) mysql> select url from entry use index(hoge) where eid = 9615899; ... 200秒待っても結果が返って来ない

インデックスの作用 where、order by、group by の条件プライマリキー、UNIQUE 制約明示的に追加したインデックス罠複数のカラムに同時にインデックスを効かせたい場合は複合インデックス select * from entry where url like 'http://d.hatena.nejp/%' order by timestamp

インデックスが効くかどうかの確認 explain mysql> explain select url from entry where eid = 9615899; +-------+------+---------------+------+---------+-------+------+-------------+ | table | type | possible_keys | key | key_len | ref | rows | Extra | | entry | ref | eid | eid | 4 | const | 1 | Using where | 1 row in set (0.04 sec) mysql> explain select url from entry use index(cname) where eid = 9615899; +-------+------+---------------+------+---------+------+---------+-------------+ | table | type | possible_keys | key | key_len | ref | rows | Extra | | entry | ALL | NULL | NULL | NULL | NULL | 9620451 | Using where | 1 row in set (0.01 sec)

より詳しくは

MySQL の分散マスタ・スレーブ参照系はスレーブへ、更新はマスタへ ORマッパで制御するアプリケーションサーバーアプリケーションロードバランサ DBスレーブ DBスレーブ DBスレーブ DBマスタ

マスタ・スレーブの特徴参照系クエリはスケールマスタはスケールしないサーバーを増やすだけで良いただし、台数を稼ぐことよりもメモリにフィットさせることが重要マスタはスケールしない更新系クエリが増えると厳しいただし、Web アプリは多くの場合 90％以上が参照クエリマスタ負荷はテーブル分割で凌ぐのが現状のセオリー

MySQL のスケールアウト戦略データがメモリに載るサイズ? YES → メモリに載せる NO メモリ増設メモリ増設が不可能ならパーティショニング

パーティショニング (テーブル分割) テーブルA とテーブルB を別のサーバーに置いて分散する方法

パーティショニングテーブル単位での分割特定のアルゴリズムでの分割例1. 頭文字 a-d が A、頭文字 e-h が B ... 例2. ハッシュ関数 A B A B

パーティショニングはなぜ効果的か局所性

パーティショニングを前提にした設計 JOIN を使わない RDBMS 屋には叱られるがしょうがない

INNER JOIN している SQL entry has many bookmarks mysql> select url from entry INNER JOIN bookmark on entry.eid = bookmark.eid -> where bookmark.uid = 169848 limit 5; +-------------------------------------------------------------------+ | url | | http://blog.bulknews.net/mt/archives/001537.html | | http://www.wrightthisway.com/Articles/000154.html | | http://internet.watch.impress.co.jp/cda/news/2005/02/10/6438.html | | http://headlines.yahoo.co.jp/hl?a=20050210-00000136-kyodo-bus_all | | http://headlines.yahoo.co.jp/hl?a=20050210-00000015-maip-soci |

JOIN を排除 where ... in ... を利用 mysql> select eid from bookmark where uid = 169848 limit 5; +-----+ | eid | | 0 | | 4 | | 5 | | 6 | | 7 | 5 rows in set (0.01 sec) mysql> select url from entry where eid in (0, 4, 5, 6, 7); +-------------------------------------------------------------------+ | url | | http://blog.bulknews.net/mt/archives/001537.html | | http://www.wrightthisway.com/Articles/000154.html | | http://internet.watch.impress.co.jp/cda/news/2005/02/10/6438.html | | http://headlines.yahoo.co.jp/hl?a=20050210-00000136-kyodo-bus_all | 4 rows in set (0.12 sec)

DBIx::MoCo $entry->bookmarks(0, 5) JOIN は使わない where ... in ... を使ってプライマリキーで結合

運用が複雑になるとその分経済的コストがかかる。パーティショニングのトレードオフ良い点負荷が下がる局所性が増してキャッシュ効果が高くなる悪い点運用が複雑になる、故障確率が上がる運用が複雑になるとその分経済的コストがかかる。メモリは今時 2GB で 5,000円。パーティショニングはあくまで切り札。

大規模データアプリケーションの開発

Q. 敢えて大量データにアクセスしたい全文検索はてなのキーワードリンク類似文書探索データマイニング ...

A. RDBMS では限界バッチ処理でデータを抽出別途インデックスサーバを作りRPCでクエリする

用途特化型のインデクシングデータを定期的に dump 構造化データを保持したサーバーをC++で開発、RPC でアクセス検索用の転置インデックスキーワードリンク用の TRIE ... 構造化データを保持したサーバーをC++で開発、RPC でアクセス Thrift

はてなキーワードによるリンクある文書が20万強のキーワードのうち何を含むか昔 ... 巨大な正規表現現在 ... TRIE で Common Prefix Search Aho-Corasick Double Array TRIE

はてなブックマークのテキスト分類器 Complement Naive Bayes 文書に含まれる単語の出現確率を保持するサーバー

全文検索エンジン大量のデータから検索したい「いい感じ」の文書を上位に高速に検索したい

RDBMS の限界特定のカラムで並び替えることしか出来ない横断的な検索には向いてない

RDBMS → 情報検索 RDB のデータをバッチで取得転置インデクスを作って検索アルゴズムを使う

テキスト走査と転置インデックス

テキスト走査 O(N) grep Pros Cons 実装が容易正規表現大量のドキュメントに向かない「複数のドキュメントから、一番欲しいドキュメントを検索する」(ranked retrieval) に向かない

転置インデックス Pros 大規模データを高速に検索 Ranked retrieval Cons 設計/実装が大変

転置インデックス索引語 (term) => docIDs (postings list)

転置インデックスのソート辞書はアルファベット順文書はID (整数) 順辞書から単語を探しやすいように圧縮や探索など様々なアルゴリズムで有利差分を取ってδ符合で圧縮

転置インデックスに対する検索辞書から検索ヒットした単語の postings list を取得ソート済み → 二分探索可 → O(log n) ヒットした単語の postings list を取得 docID が検索結果スコアリング → Cosine Similarity

ベクトル空間モデルベクトル空間モデル情報検索技術の基盤クエリやドキュメントをベクトル化して無限次元のベクトル空間に展開ベクトル空間内で「近い」ベクトルを探す → 類似文書情報検索技術の基盤クエリに基づいたドキュメントのスコアリングドキュメント分類ドキュメントクラスタリング

ドキュメントのベクトル化ドキュメントをベクトルとして表現辞書の単語を成分とする無限次元ベクトル d1

ベクトル空間モデルのイメージ t3 d2 d3 d1 θ φ t1 d5 t2 d4

Cosine similarity 二つのベクトルの類似度 = 2ベクトルが作る cosΘ を求める式に等しい ∵ 相関係数 = cosΘ

Cosine similarity 2ベクトルの内積が最も大きいもの = 最も相関度が高い

例 3つの小説の 3 語の tf ベクトル長で正規化 SaS・PaP = 0.999 SaS・WH = 0.888 "Sense and Sensibility" "Pride and Prejudice" "Wuthering Heights" ベクトル長で正規化 SaS・PaP = 0.999 SaS・WH = 0.888 ∴ SaSに近いのはWHよりPaP

ベクトル空間モデルの内積計算コスト M次元の内積計算を N ドキュメント数計算コストを下げる手法が必要 M ... 辞書の単語数。万単位

Cosine Similarity のアルゴリズム現実的な計算時間で計算するには行列がスパースであることを利用転置インデックスを利用する top K が取得できれば良い様々な手法で足切り

圧縮全文索引転置インデックスの弱点部分文字列検索分かち書き方式は検索漏れ N-gram 方式は計算量が増加 Suffix Arrays ただし SA は空間コストが高い → Compressed Suffix Arrays (PFI's Sedue)

大規模なバッチ処理一台で処理仕切れない例: httpd のログ複数サーバーで並列分散処理 → MapReduce Hadoop

理論と実践理論と実践の両側から "やりたいこと"→ "計算機の問題" の道筋をどう発見するかが鍵 JOIN を使わない etc ... バッドノウハウ教科書には載っていないベクトル計算 etc ... 古典的な理論多くの問題は古典的な理論に帰着する "やりたいこと"→ "計算機の問題" の道筋をどう発見するかが鍵「キーワードでリンクしたい」 → TRIE で Common Prefix Search

まとめ GB単位のデータ処理 TB、PB はまた違った世界メモリ重要分散を意識した運用アルゴリズムとデータ構造

参考文献 Daniel P. Bovet、Marco Cesati "詳解Linuxカーネル第3版" オライリー・ジャパン 2007 Jeremy D. Zawodny, Derek J. Balling　"実践ハイパフォーマンスMySQL" オライリー・ジャパン, 2004 Christopher D. Manning、Prabhakar Raghavan、 Hinrich Schutz "Introduction to Information Retrieval" Cambridge University Press, 2008 "たつをの ChangeLog" IIR カテゴリ http://chalow.net/clsearch.cgi?cat=IIR