JJUG Cross Community Conference 2007 Fall 丸山先生レクチャーシリーズ 第1回 Googleの分散処理技術
資料(PDF)はこちら
このエントリはまとめじゃなくて、自分用のノートみたいなものなので、
資料の該当箇所と対照できるようにページ番号を書いておきます。
これまでのエンタープライズシステムから、次世代Webへ(p9,10)
現状では分散処理技術は関係ないかもしれないが、これからどんどん重要になっていく。
なぜなら、↓だから。
インフラの変化は、プログラミング・スタイルやミドルウェアの変化を生み出す。
例えば、メインフレーム→クラサバ→Webというように、メインストリームのプラットフォームは変遷してきた。
現状、ITの市場規模はエンタープライズ(企業向け)が最大だが、これからはWebの世界の方が大きくなっていく。
今後も、エンタープライズの市場規模は小さくならないが、相対的に比率は下がっていく。
現在は大規模なシステムといえば銀行だが、今後はWebの世界でもっとユーザの多いサービスがどんどん出てくる。
(ライフラインとしてのIT、メディアとしてのIT)
そこで分散処理が重要になってくる。
なぜ、Googleか?(p11)
大手ベンダからサーバを買わない
大手ベンダからOSを買わない
大手ベンダからDBも買わない
インフラは自作という力
…ビジネスモデルやプログラミングスタイルを真似ることは出来ても、ここをマネするのはとても難しい
Cloudの実体(p18)
CloudコンピューティングのCloudの実体
- ネットワークのインフラ
- 多数のサーバ
- データセンタ
利用者は簡単なインターフェースを使う
インフラは難しい
GFSの特徴(p46)
The Google File System(p44〜)
ほとんどのファイルは、既存のデータを上書きするのではなく、新しいデータを追記する。
→2chやニコニコのスレ・コメントの話を思い出した。あれを、一つ下のレイヤでやってるようなものだろうか?
Tablets Tabletsの分割(p67,68)
論理的には一つのテーブルのまま、どんどん物理サーバは分割していける。
Tablets Tabletの位置指定(p71)
iノードみたいなの
Google Clone Apache Lucene/HadoopとAmazon EC2/S3(p111)
ApacheのLucene/Hadoopプロジェクトである。このプロジェクトにはこのプロジェクトには、Yahooが資金援助を行っている。
分散処理技術を検証し動作確認するプラットフォームを、AmazonのEC2/S3が提供している
Apache・Yahoo・Amazonが一緒にならないとGoogleを追いかけることが出来ない!!
Google…恐ろしい子
続きはサブセミナーで
第一回:11月21日 「Google File System とBigTable」
第二回:12月12日 「MapReduceとSawzall」
第三回:12月26日 「HadoopとEC2/S3」