Cassandra(カサンドラ)は、AmazonのDynamoとGoogleのBigTableを元にしたオープンソースの列指向分散データベース。(リレーショナルデータベース(RDB)ではない) Javaで作られているが、Thriftベースなので他の言語からもアクセスしやすいらしい。 Dynamoの分散システム設計とBigTableのデータモデル(ColumnFamily)を参考にしており、単なるkey/valueストアより高機能らしい。
When building a Cassandra cluster, the "key" question (sorry, that's weak) is whether to use the RandomPartitioner (RP), or the OrderPreservingPartitioner (OPP). These control how your data is distributed over your nodes. Once you have chosen your partitioner, you cannot change without wiping your data, so think carefully!
For newcomers Cassandra data model is a mess. Even experienced database developers spend quite a bit of time learning it.
NoSQL database systems are designed for scalability. The down side of that is a primitive key-value data model and, as the name suggest, no support for SQL. It might sound like a serious limitation – how can I "select", "join", "group" and "sort" the data?
Deprecation warning This post covers the obsolete Cassandra 0.7. Modern Cassandra manipulates indexes using CQL. Overview In Cassandra, indexes on column values are called "secondary indexes," to distinguish them from the index on the row key that all ColumnFamilies have. Secondary indexes allow querying by value and can be built in the background automatically without blocking reads or writes.
If you're coming from an RDBM
イントロダクション Cassandraは4次元または5次元ハッシュなデータモデルを持っています。 基本コンセプトとしては: Cluster: 論理的なCassandraインスタンスの事。クラスタは複数のキースペースを持つことが出来る。 Keyspace: ColumnFamilies用のネームスペース。一般的には1アプリケーションに1キースペース。 ColumnFamilyは複数のカラム(カラムは名前、値、タイムスタンプを持つ)を持ち、行キーで参照可能。 SuperColumnsは サブカラムを持つカラムのこと。 まずはボトムアップで一番小さい粒度のデータ構造であるカラムから順にみていきましょう。 カラム カラムはCassandraにおける最小限のデータ構造です。その実体はタプル(triplet)で、名前、値、タイムスタンプを持ちます。 Thriftインタフェースのカラムの定義は以下のよう
クラウド時代の新しいデータベースとして、非リレーショナルな構造を持つNoSQLデータベースが話題になっています(NoSQL=Not Only SQL。命名の経緯はこちら)。そのNoSQLの中で、もっとも注目されているデータベースの1つがApacheのCassandraです。 Cassandraは、Facebookで大規模データ処理のために開発され、その後オープンソースとなり、現在ではApache Software Foundationのプロジェクトとして開発されています。 現在、CassandraはFacebookやDiggなどで使われている、もしくは使うことが検討されているとされ、Twitterでも(ツイートデータの格納には使われないようですが、それ以外の用途で)利用されています。 TwitterとDiggがNoSQLの「Cassandra」を選ぶ理由 Twitterが、Cassandr
As everyone probably knows by now, Cassandra was originated at Facebook as a solution for inbox search and then open sourced under the ASF umbrella and an Apache license. Since then, Twitter, Digg, Reddit and quite a few others started using it, but not much have been heard from Facebook.
