2018年9月20日開催されたdb tech showcase Tokyo 2018で発表した資料です。Read less

米Microsoft傘下のLinkedIn開発者は9月12日、Apache Hadoop上でTensorFlowをネイティブに動かすオープンソースプロジェクト「TensorFlow on YARN(TonY)」を発表した。 TensorFlow on YARN(TonY)は、大規模なApache Hadoop実装上で分散型で機械学習を運用するためにLinkedIn社内で開発されたフレームワーク。単一ノードまたは分散型のTensorFlowトレーニングをHadoopアプリケーションとして動かすことができる。 開発チームによると、それまで「TensorFlow on Spark」やIntelの「TensorFlowOnYARN」を試したが、信頼性や柔軟性に欠けたため新たに開発することにしたという。TonYでは、リソースネゴシエーションやコンテナ環境設定などのタスク処理を通じてTensorFlo
2015年10月11日 前回「完全分散モードでちょっと手こずっています」という終わり方をしてしまいましたが、その後参考になりそうなサイトが見つかったので、それをベースに何とか完全分散モードの動作確認までたどり着きました。 Setting up a Basic Hadoop Cluster 上記の内容をベースに、省略されていたり足りないところを補足しながら進めていきます。それから、補助的に以下のサイトも参考にさせていただいています。 最弱のHadoopクラスタをRaspberry Piで構築する なお、今回はとりあえず動かすことを目的としているので、余分な手順が含まれている可能性があります。予めご了承ください。 ではでは、4台のRaspberry Pi 2にRaspbianをインストールして、初回起動したところからスタートします。 。。。この検証のために新たにRaspberry Pi 2を2
KMSのポート番号が変わったのは、HBaseのHMasterと被ったため。 参考: https://issues.apache.org/jira/browse/HBASE-10123 シェルスクリプトの書き直し CDHやHDPなど、BigTopを利用してビルドされたものにはinitスクリプトが用意されているため、サービスの起動停止にはinitスクリプトを利用しますが、素のApache Hadoopを利用する場合には、sbin/hadoop-daemon.sh, sbin/yarn-daemon.shなどを叩く必要がありました。 Hadoop 3ではこれらのスクリプトを直接叩くのは非推奨となり、代わりに--daemonオプションを利用します。--daemonオプションを利用したサービス起動・停止コマンドは以下のようになります。 $ hdfs --daemon start namenode $
この記事は、インテルの The Parallel Universe Magazine 24 号に収録されている、インテル® MPI ライブラリーの Hadoop* エコシステムのサポートに関する章を抜粋翻訳したものです。 長年にわたり MPI は、分散処理モデルの主流として利用されてきました。しかし、大量の入力データの処理を必要とするワークロードを扱うハイパフォーマンス・コンピューティング (HPC) により、新しいアプローチとフレームワークが登場しました。最も一般的なものは、Apache* Hadoop* MapReduce¹ であり、特に Hadoop* ソフトウェア・スタック (すべての関連ツールとフレームワークを含む) が挙げられます。 Vanilla Hadoop* は複数のモジュールで構成され、² 効率良く解くことができる問題の範囲には一定の制約があります。例えば、MapRed
ブログの総集編です。下記にあるリンクを参照してください。 Hadoopを使ってみたい! 新しく何かを始めようと思った時、面倒だなぁと思うことは多いものです。書籍やブログをみて「これは役立ちそうだ」と思っても、ちょっと試すことにさえにも辿り着けず、頓挫しているものがTODOリストやPocket(旧Readitlater)に大量にあります。 #書いていて嫌な気持ちになってきた、、、 Hadoopはそんな面倒なものの一つかもしれません。書籍を読んで「よし、やってみるか」という強い決意を持ったすぐ後、 「試すにはマシンを買わないといけないのかなぁ」 「いや、EC2でいけそう。アカウントどうしようか」 「なんか仮想マシンでもできそうって書いてある」 という第一の壁があります。 運良く壁を乗り越えたあと、 「ソフトはどこからダウンロードすればいいだっけ?」 「コマンドラインでやるの?」 「設定面倒そう
20170927 pydata tokyo データサイエンスな皆様に送る分散処理の基礎の基礎、そしてPySparkの勘所 This document discusses PySpark and how it relates to Python, Spark, and big data frameworks. Some key points discussed include: - PySpark allows users to write Spark applications in Python, enabling Python users to leverage Spark's capabilities for large-scale data processing. - PySpark supports both the RDD API and DataFrame API for wo
あけましておめでとうございます。 例年、Apache HadoopやApache Sparkを中心に並列分散処理ミドルウェアの動向や展望についてご紹介しています。 今年は NTTデータに所属する 岩崎正剛(Hadoopコミッタ)、猿田浩輔(Sparkコミッタ)、鯵坂明(Hadoopコミッタ/PMC)の3名でディスカッションした内容を元にお伝えします。 ディスカッション中の岩崎正剛氏 Hadoop 3.0リリース 昨年の新春特別企画では、「2017年はHadoop 3.0がリリースされる年になるはずです。」と書きましたが、Hadoop 3.0.0が2017年12月13日にリリースされました。2017年の間に3.0.0-alpha2、3.0.0-alpha3、3.0.0-alpha4、3.0.0-beta1とリリースを重ね、なんとか2017年内に間に合った格好です。 2016年にリリ
Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article? まず、Apache Hadoop 3.0.0リリースおめでとうございます! 公式の記事: https://blogs.apache.org/foundation/entry/the-apache-software-foundation-announces26 ここ最近の大きめのHDFSの機能について、いくつか語ってみたいと思います 3.0.0でリリースされた機能 Erasure Coding Router based federation (2.9.0にもbackportされた) 3.1.0に入ることが確定した機能 (trunkにマージ
Ubiquitous Open Source enterprise framework maintains decade-long leading role in $100B annual Big Data market Forest Hill, MD —14 December 2017— The Apache Software Foundation (ASF), the all-volunteer developers, stewards, and incubators of more than 350 Open Source projects and initiatives, today announced Apache® Hadoop® v3.0.0, the latest version of the Open Source software framework for relia
ひしだまHPの更新履歴。 主にTRPGリプレイの元ネタ集、プログラミング技術メモと自作ソフト、好きなゲームや音楽です。 Asakusa Framework Advent Calendar 2017の3日目です。 2017/11/29に出たAsakusaFW 0.10.0(→リリースノート)の機能を紹介していきたいと思います。 最初はAsakusa on MapReduceの非推奨化です。 最近よく聞く「若者の○○離れ」ならぬ「AsakusaFWのHadoop(MapReduce)離れ」。 (AsakusaFWは若者(笑)) 公開された当初は 実行基盤はHadoop(MapReduce)のみだったAsakusaFWですが、Spark, M3BPといった実行基盤に対応してきました。そして最近Asakusaコンパイラーも共通化が図られており、その過程でMapReduce版は非推奨にすることになっ
大規模データの分散処理を実現するミドルウェアに関する技術情報ならなんでもどうぞ 例 Apache Hadoop Apache Spark Apache Kafka Apache Hive Apache HBase Apache Impala Apache Tez Apache Drill Apache Flink Apache Storm Apache Software Foundationのプロジェクトが並んでいるけど、そうでないものももちろんOKです 2016 https://qiita.com/advent-calendar/2016/distributed-computing 2015 http://qiita.com/advent-calendar/2015/nxdistributedcomputing http://qiita.com/advent-calendar/2015/
Hadoop、 Hive、Impala に関する書籍をちょこちょこ読み始めて、手元に実行環境が欲しくなったのでさくっと構築。 必要なもの: メモリ16GB以上積んだ Mac or Linux インストール済みのPC。 以下の記事を参考にしつつテスト環境を作る。 how-to-install-a-virtual-apache-hadoop-cluster-with-vagrant-and-cloudera-manager VirtualBox のインストール 以下から最新版をインストール。 https://www.virtualbox.org/wiki/Downloads Vagrant のインストール 以下から最新版をインストール。 http://www.vagrantup.com/downloads Vagrant によるクラスタ環境構築 ホストのコンソールで次のコマンドを実行。 Clo
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く