事例以外に「Hadoop World NYC 2011」で注目を集めたキーワードは、「次世代Hadoop」「エコシステム」「HBase」「既存DWHとの連携」などである。
スケーラビリティーの強化続く
次世代Hadoopはアーキテクチャーを改良し、より高いスケーラビリティー、信頼性、機能を実現する見込みである。例えば、名前空間とブロックストレージの管理を分離してスケーラビリティーを高める「HDFSフェデレーション」、マスターサーバーの可用性を向上させる「NameNode HA」、MPI(メッセージ・パッシング・インタフェース)などの分散処理インタフェースを利用できて1万台までスケールアウトが可能な「MapReduce 2.0」などを備える。これらの機能は、バージョン0.23に搭載する。いずれエンタープライズ領域で採用できるレベルに到達するだろう。
「Hadoop開発は分裂しない」
Hadoopの生みの親であり、Hadoopの開発をホストする米アパッチソフトウエア財団のボードメンバーでもあるダグ・カッティング氏は、「次世代Hadoopの開発に向けたベンダー間の連携は、今まで以上に強力である」とし、エコシステムの発展を強調した(写真、図)。
カッティング氏がHadoop開発の多様性や透明性を力説する背景には、「Hadoopの開発が分裂するのではないか」という不安の声が強まっていることがある。特に、開発の主要メンバーを抱えるクラウデラと米ホートンワークスがそれぞれサポートサービスを提供していることが、その懸念を強めている。
カッティング氏は、「Hadoopがビッグデータを分散処理するための中核(Linuxにおけるカーネルのような存在)になりつつあり、周辺のツールが発展していくだろう」と展望を語った。さらに、多様な周辺ツールを統合したいとするニーズが強まっており、それに応えてOSSのプロジェクト「BigTop」が既に立ち上がっていることを紹介した。
BigTopはHadoopと周辺ツールを含めたエコシステムをパッケージングするものである。Linux/OSSの開発経緯に詳しい方なら、「Red Hat Enterprise LinuxにおけるFedoraのような存在」と考えれば理解しやすいだろう。いわば、コミュニティー主体で実現するHadoopディストリビューションだ。カッティング氏は、クラウデラが提供するディストリビューションがBigTopをベースとすることも強調していた。
エコシステムの広がりを実感
HBaseに関する話題を扱うセッションは10に上った。本格利用に向けてチャレンジが進んでいる。前述したイーベイのCassiniに加えて、フェイスブックのメッセージシステム「Titan」や、地図/交通情報を扱うサービス「NAVTEQ」など多くの例が示された。Titanでは、1秒当たり5万件のインスタントメッセージ処理にHBaseを利用する。
昨年に引き続き、「Teradata」「Netezza」「Oracle Exadata」といった商用DWH製品との連携も多数披露された。コネクターなどの連携ツールは、通常は後発ソフトウエア側が用意するものだが、Hadoopでは既存のDWH製品ベンダーなどが提供している。各社にとって、Hadoopとの連携が重要であることが分かる。
今回のカンファレンスは全体として、HadoopがOSSや商用製品も含めたさらに大きなエコシステムを形成し、ますます成長していくことを参加者に強く印象づけた。
NTTデータ 基盤システム事業本部
シニアエキスパート