5. #trinodb 現行のデータ基盤の課題 1. CDH無償版の提供が終了しているので継続して利用出来ない ○ 有償の後継版Cloudera CDPも検討したが費用面がクリア出来ず見送り (Google Cloudなども検討したが、費用や技術課題がクリア出来ず見送り。5年償却で見るとクラウドは高い。) 2. ComputeとStorageを分離してNode配置出来ないので サーバスペックが過剰になりがち ○ YARNのNode ManegerとHDFSは分離して配置出来ない ○ ComputeスケールさせたいだけなのにStorageもスケールするので非効率 3. Impalaの統計情報の運用が非常に煩雑かつ有効に利用出来ない ○ 大規模テーブルの場合、ほぼ使えない ○ 統計情報が利用できないので効率の悪いクエリになりがちでImpalaを活かしきれない 4. ETL/ELT処理で利用して