JJUG Cross Community Conference 2007 Fall 丸山先生レクチャーシリーズ第1回 Googleの分散処理技術

資料(PDF)はこちら

このエントリはまとめじゃなくて、自分用のノートみたいなものなので、
資料の該当箇所と対照できるようにページ番号を書いておきます。

これまでのエンタープライズシステムから、次世代Webへ(p9,10)

現状では分散処理技術は関係ないかもしれないが、これからどんどん重要になっていく。

なぜなら、↓だから。

インフラの変化は、プログラミング･スタイルやミドルウェアの変化を生み出す。

例えば、メインフレーム→クラサバ→Webというように、メインストリームのプラットフォームは変遷してきた。

現状、ITの市場規模はエンタープライズ(企業向け)が最大だが、これからはWebの世界の方が大きくなっていく。
今後も、エンタープライズの市場規模は小さくならないが、相対的に比率は下がっていく。

現在は大規模なシステムといえば銀行だが、今後はWebの世界でもっとユーザの多いサービスがどんどん出てくる。
(ライフラインとしてのIT、メディアとしてのIT)

そこで分散処理が重要になってくる。

余談+α

国連のとある機関曰く「デジタルデバイドはケータイの普及によって終わった」。
インドのケララ州にて、漁師がケータイで情報共有することで漁業効率を大幅にアップさせたという事例。
獲れる見込みがないという情報、市場に魚が余っているという情報を共有→無駄(魚を捨てるとか)を省く
情報の共有→経済の活性化
これが↑のどんどん大きくなるWebの世界という話に繋がっていく。

なぜ、Googleか？(p11)

大手ベンダからサーバを買わない
大手ベンダからOSを買わない
大手ベンダからDBも買わない

インフラは自作という力
…ビジネスモデルやプログラミングスタイルを真似ることは出来ても、ここをマネするのはとても難しい

Cloudの実体(p18)

CloudコンピューティングのCloudの実体

ネットワークのインフラ

多数のサーバ

データセンタ

利用者は簡単なインターフェースを使う
インフラは難しい

システム障害については?(p36)

3-year MTBFだとしても, 1000台のうち一台は、毎日だめにな

信頼性の高いハードは、ソフトウェア技術者を怠け者にする

GFSの特徴(p46)

The Google File System(p44〜)

ほとんどのファイルは、既存のデータを上書きするのではなく、新しいデータを追記する。

→2chやニコニコのスレ・コメントの話を思い出した。あれを、一つ下のレイヤでやってるようなものだろうか？

Bigtableの背景なぜ商用DBを使用しないのか？(p63)

Bigtable(p57〜)

たいていの商用DBにとって、データの規模が大きすぎる。

そして、何より楽しいから自作する。

Tablets Tabletsの分割(p67,68)

論理的には一つのテーブルのまま、どんどん物理サーバは分割していける。

Tablets Tabletの位置指定(p71)

iノードみたいなの

MapReduce(p73〜)

Googleに入社すると最初にMapReduceの使い方を勉強させられるらしい。

分散処理可能性から MapReduceを再解釈する(p99〜103)

漫画よく分かるMapReduce
見たいな感じ。
確かになんで分散させられるのかはよくわかる。

Google Clone Apache Lucene/HadoopとAmazon EC2/S3(p111)

ApacheのLucene/Hadoopプロジェクトである。このプロジェクトにはこのプロジェクトには、Yahooが資金援助を行っている。

分散処理技術を検証し動作確認するプラットフォームを、AmazonのEC2/S3が提供している

Apache・Yahoo・Amazonが一緒にならないとGoogleを追いかけることが出来ない！！
Google…恐ろしい子

続きはサブセミナーで
第一回：11月21日　「Google File System とBigTable」
第二回：12月12日　「MapReduceとSawzall」
第三回：12月26日　「HadoopとEC2/S3」