[B! hadoop] serihiroのブックマーク

Apache Hadoop HDFSの最新機能の紹介（2018）#dbts2018

2018年9月20日開催されたdb tech showcase Tokyo 2018で発表した資料です。Read less

serihiro 2018/09/21

hadoop

リンク

Apache Hadoop上でTensorFlowを動かす「TonY」 | OSDN Magazine

米Microsoft傘下のLinkedIn開発者は9月12日、Apache Hadoop上でTensorFlowをネイティブに動かすオープンソースプロジェクト「TensorFlow on YARN（TonY）」を発表した。 TensorFlow on YARN（TonY）は、大規模なApache Hadoop実装上で分散型で機械学習を運用するためにLinkedIn社内で開発されたフレームワーク。単一ノードまたは分散型のTensorFlowトレーニングをHadoopアプリケーションとして動かすことができる。開発チームによると、それまで「TensorFlow on Spark」やIntelの「TensorFlowOnYARN」を試したが、信頼性や柔軟性に欠けたため新たに開発することにしたという。TonYでは、リソースネゴシエーションやコンテナ環境設定などのタスク処理を通じてTensorFlo

serihiro 2018/09/17

リンク

Apache Hadoop YARNとマルチテナントにおけるリソース管理

Apache Hadoop YARNのスケジューラを使用した、マルチテナントにおけるリソース管理の方法について紹介します。Read less

serihiro 2018/07/27

yarn
hadoop

リンク

Raspberry Pi 2 x 4台でHadoopの完全分散モードを動作させる　前編 | MUDAなことをしよう。

2015年10月11日前回「完全分散モードでちょっと手こずっています」という終わり方をしてしまいましたが、その後参考になりそうなサイトが見つかったので、それをベースに何とか完全分散モードの動作確認までたどり着きました。 Setting up a Basic Hadoop Cluster 上記の内容をベースに、省略されていたり足りないところを補足しながら進めていきます。それから、補助的に以下のサイトも参考にさせていただいています。最弱のHadoopクラスタをRaspberry Piで構築するなお、今回はとりあえず動かすことを目的としているので、余分な手順が含まれている可能性があります。予めご了承ください。ではでは、４台のRaspberry Pi 2にRaspbianをインストールして、初回起動したところからスタートします。。。。この検証のために新たにRaspberry Pi 2を２

serihiro 2018/04/28

hadoop

リンク

GitHub - tomwhite/hadoop-book: Example source code accompanying O'Reilly's "Hadoop: The Definitive Guide" by Tom White

You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert

serihiro 2018/04/25

hadoop

リンク

Apache Hadoop 3でまずハマりそうなポイント - Qiita

KMSのポート番号が変わったのは、HBaseのHMasterと被ったため。参考: https://issues.apache.org/jira/browse/HBASE-10123 シェルスクリプトの書き直し CDHやHDPなど、BigTopを利用してビルドされたものにはinitスクリプトが用意されているため、サービスの起動停止にはinitスクリプトを利用しますが、素のApache Hadoopを利用する場合には、sbin/hadoop-daemon.sh, sbin/yarn-daemon.shなどを叩く必要がありました。 Hadoop 3ではこれらのスクリプトを直接叩くのは非推奨となり、代わりに--daemonオプションを利用します。--daemonオプションを利用したサービス起動・停止コマンドは以下のようになります。 $ hdfs --daemon start namenode $

serihiro 2018/03/07

hadoop

リンク

インテル® MPI ライブラリー: Hadoop* エコシステムをサポート

この記事は、インテルの The Parallel Universe Magazine 24 号に収録されている、インテル® MPI ライブラリーの Hadoop* エコシステムのサポートに関する章を抜粋翻訳したものです。長年にわたり MPI は、分散処理モデルの主流として利用されてきました。しかし、大量の入力データの処理を必要とするワークロードを扱うハイパフォーマンス・コンピューティング (HPC) により、新しいアプローチとフレームワークが登場しました。最も一般的なものは、Apache* Hadoop* MapReduce¹ であり、特に Hadoop* ソフトウェア・スタック (すべての関連ツールとフレームワークを含む) が挙げられます。 Vanilla Hadoop* は複数のモジュールで構成され、² 効率良く解くことができる問題の範囲には一定の制約があります。例えば、MapRed

serihiro 2018/02/17

hadoop
mpi

リンク

GitHub - DonDebonair/virtual-hadoop-cluster: A virtual Hadoop cluster running CDH5

serihiro 2018/02/16

CDH
hadoop

リンク

Hadoopを10分で試す

ブログの総集編です。下記にあるリンクを参照してください。 Hadoopを使ってみたい！新しく何かを始めようと思った時、面倒だなぁと思うことは多いものです。書籍やブログをみて「これは役立ちそうだ」と思っても、ちょっと試すことにさえにも辿り着けず、頓挫しているものがTODOリストやPocket（旧Readitlater）に大量にあります。＃書いていて嫌な気持ちになってきた、、、 Hadoopはそんな面倒なものの一つかもしれません。書籍を読んで「よし、やってみるか」という強い決意を持ったすぐ後、「試すにはマシンを買わないといけないのかなぁ」「いや、EC2でいけそう。アカウントどうしようか」「なんか仮想マシンでもできそうって書いてある」という第一の壁があります。運良く壁を乗り越えたあと、「ソフトはどこからダウンロードすればいいだっけ？」「コマンドラインでやるの？」「設定面倒そう

serihiro 2018/02/16

hadoop
cdh

リンク

HDFS basics from API perspective

serihiro 2018/01/11

hdfs
hadoop

リンク

20170927 pydata tokyo データサイエンスな皆様に送る分散処理の基礎の基礎、そしてPySparkの勘所

20170927 pydata tokyo データサイエンスな皆様に送る分散処理の基礎の基礎、そしてPySparkの勘所 This document discusses PySpark and how it relates to Python, Spark, and big data frameworks. Some key points discussed include: - PySpark allows users to write Spark applications in Python, enabling Python users to leverage Spark's capabilities for large-scale data processing. - PySpark supports both the RDD API and DataFrame API for wo

serihiro 2018/01/07

Spark
hadoop

リンク

Hadoop, Sparkその他分散処理フレームワークの2018年を占う | gihyo.jp

あけましておめでとうございます。例年、Apache HadoopやApache Sparkを中心に並列分散処理ミドルウェアの動向や展望についてご紹介しています。今年は NTTデータに所属する岩崎正剛（Hadoopコミッタ⁠）⁠、猿田浩輔（Sparkコミッタ⁠）⁠、鯵坂明（Hadoopコミッタ/PMC）の3名でディスカッションした内容を元にお伝えします。ディスカッション中の岩崎正剛氏 Hadoop 3.0リリース昨年の新春特別企画では、「⁠2017年はHadoop 3.0がリリースされる年になるはずです。」と書きましたが、Hadoop 3.0.0が2017年12月13日にリリースされました。2017年の間に3.0.0-alpha2、3.0.0-alpha3、3.0.0-alpha4、3.0.0-beta1とリリースを重ね、なんとか2017年内に間に合った格好です。 2016年にリリ

serihiro 2018/01/04

hadoop

リンク

hadoop/hadoop-mapreduce-project/hadoop-mapreduce-client/hadoop-mapreduce-client-core/src/main/java/org/apache/hadoop/mapred/LineRecordReader.java at 178751ed8c9d47038acf8616c226f1f52e884feb · apache/hadoop

serihiro 2017/12/25

メモ: LineRecordReaderのFileSplitの境界値に関してはHadoop1.x時代と実装が変わっている。next() method常に１行余分にreadするようになっているのでbacktrackしていない。

hadoop

リンク

HDFSの現状と今後 (その1) - Qiita

Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article? まず、Apache Hadoop 3.0.0リリースおめでとうございます! 公式の記事: https://blogs.apache.org/foundation/entry/the-apache-software-foundation-announces26 ここ最近の大きめのHDFSの機能について、いくつか語ってみたいと思います 3.0.0でリリースされた機能 Erasure Coding Router based federation (2.9.0にもbackportされた) 3.1.0に入ることが確定した機能 (trunkにマージ

serihiro 2017/12/24

https://techblog.yahoo.co.jp/infrastructure/hdfs_erasure_coding/ と併せて読みたい

リンク

How does Hadoop process records split across block boundaries?

serihiro 2017/12/24

hdfsのblockが論理ファイルの中途半端なとこでぶった切っちゃったらどうなるのっと

hadoop

リンク

The Apache Software Foundation Announces Apache® Hadoop® v3.0.0 General Availability - The Apache Software Foundation Blog

Ubiquitous Open Source enterprise framework maintains decade-long leading role in $100B annual Big Data market Forest Hill, MD —14 December 2017— The Apache Software Foundation (ASF), the all-volunteer developers, stewards, and incubators of more than 350 Open Source projects and initiatives, today announced Apache® Hadoop® v3.0.0, the latest version of the Open Source software framework for relia

serihiro 2017/12/14

hadoop

リンク

HDFS SnapshotsとDistCpを利用したHDFSデータの差分更新 - Qiita

Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article?

serihiro 2017/12/14

hadoop

リンク

Asakusa FrameworkのHadoop（MapReduce）離れ - ひしだまの変更履歴

ひしだまＨＰの更新履歴。主にＴＲＰＧリプレイの元ネタ集、プログラミング技術メモと自作ソフト、好きなゲームや音楽です。 Asakusa Framework Advent Calendar 2017の3日目です。 2017/11/29に出たAsakusaFW 0.10.0（→リリースノート）の機能を紹介していきたいと思います。最初はAsakusa on MapReduceの非推奨化です。最近よく聞く「若者の○○離れ」ならぬ「AsakusaFWのHadoop（MapReduce）離れ」。（AsakusaFWは若者(笑)）公開された当初は実行基盤はHadoop（MapReduce）のみだったAsakusaFWですが、Spark, M3BPといった実行基盤に対応してきました。そして最近Asakusaコンパイラーも共通化が図られており、その過程でMapReduce版は非推奨にすることになっ

serihiro 2017/12/03

hadoop

リンク

Distributed computing (Apache Hadoop, Spark, Kafka, ...) - Qiita Advent Calendar 2017 - Qiita

大規模データの分散処理を実現するミドルウェアに関する技術情報ならなんでもどうぞ例 Apache Hadoop Apache Spark Apache Kafka Apache Hive Apache HBase Apache Impala Apache Tez Apache Drill Apache Flink Apache Storm Apache Software Foundationのプロジェクトが並んでいるけど、そうでないものももちろんOKです 2016 https://qiita.com/advent-calendar/2016/distributed-computing 2015 http://qiita.com/advent-calendar/2015/nxdistributedcomputing http://qiita.com/advent-calendar/2015/

serihiro 2017/11/26

リンク

Vagrant で始める CDH5 (Hadoop) + Hive + Impala 環境構築 - Qiita

Hadoop、 Hive、Impala に関する書籍をちょこちょこ読み始めて、手元に実行環境が欲しくなったのでさくっと構築。必要なもの: メモリ16GB以上積んだ Mac or Linux インストール済みのPC。以下の記事を参考にしつつテスト環境を作る。 how-to-install-a-virtual-apache-hadoop-cluster-with-vagrant-and-cloudera-manager VirtualBox のインストール以下から最新版をインストール。 https://www.virtualbox.org/wiki/Downloads Vagrant のインストール以下から最新版をインストール。 http://www.vagrantup.com/downloads Vagrant によるクラスタ環境構築ホストのコンソールで次のコマンドを実行。 Clo

serihiro 2017/11/22

CDH
hadoop

リンク

はてなブックマーク

タグ

関連タグで絞り込む (38)

hadoopに関するserihiroのブックマーク (84)

お知らせ

月間はてなブックマーク数ランキング（2025年2月）

旧バージョンのChrome拡張機能についてのお知らせと新バージョンご利用のお願い

今週のはてなブックマーク数ランキング（2025年3月第1週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス