Location via proxy:   [ UP ]  
[Report a bug]   [Manage cookies]                
SlideShare a Scribd company logo
Big Data: Hadoop i njegov
ekosistem
Darko Marjanović
CEO & Co-Founder @ Things Solver
darko@thingsolver.com
Agenda
• Big Data
• Hadoop
• HDFS
• Map Reduce
• YARN
• SPARK
• Ekosistem
Big Data
• Big Data predstavlja podatke koji pristižu velikom brzinom i one su
količine koja prevazilazi mogućnosti tradicionalnog softvera za
skladištenje, obradu i upravljanje podacima.
• Big Data je sve ono što ne može da stane u Excel.
Big Data - Dimenzije
Kompleksnost podataka
Količina (Volume)
Raznovrsnost (Variety) Brzina (Velocity)
Kvalitet (Veracity)
Big Data – Izvori podataka
• Društvene mreže (Twitter, Facebook…)
• Email, HTML, Click Stream
• slike, video, logovi, senzorski podaci
• Relacione baze podataka
Data Science Conference Belgrade
Big Data - Korisnici
Hadoop
• Hadoop je open-source softver Apache fondacije.
• Služi za skladištenje i procesiranje velikih količina podataka.
• Napisan je u Java programskom jeziku.
Hadoop
• Hadoop Common
• HDFS
• Map Reduce
• YARN
Hadoop HDFS
Hadoop HDFS
Hadoop Map Reduce
HDFS
Data
MAP
MAP
MAP
REDUCE
REDUCE
Results
Hadoop YARN
• ResourceManager
• Scheduler – Alokacija resursa
• ApplicationsManager – Prihvatanje poslova …
• Nove aplikacije na Hadoop-u (Real Time, Interactive…)
• Veća iskorišćenost resursa
Spark
• Apache Spark je platforma za Big Data obradu, sa ugrađenim
modulima za mašinsko učenje, SQL, streaming i graf obradu.
• Obrada u memoriji.
• 10x brži od Map Reduce-a.
Hadoop
• Hadoop nije zamena za RDBMS.
• Hadoop nije baza podataka.
• Offline analitika.
• Jedan data centar.
Hadoop Mane
• Brzina
• Kompleksnost
• Podrška
• Obrada u memoriji
• Streaming
Ekosistem
• Hadoop je moguće nadogaraditi brojnim alatima kojima se
poboljšavaju mogućnosti i efikasnost obrade podataka.
• Dele se na alate za prenošenje podataka, analizu podataka,
upravljanje klasterom…
Ekosistem – Neki od alata
• Unos podatak
• Flume
• Kafka
• Sqoop
• …
• Obrada
• Hive
• Pig
• Storm
• …
• Upravljanje klasterom
• Ambari
• ..
Data Science Conference Belgrade
Korisni linkovi
• Hadoop Srbija
• Hadoop
• Hortonworks
• Cloudera
Big Data: Hadoop i njegov
ekosistem
Darko Marjanović
CEO & Co-Founder @ Things Solver
darko@thingsolver.com

More Related Content

Data Science Conference Belgrade

  • 1. Big Data: Hadoop i njegov ekosistem Darko Marjanović CEO & Co-Founder @ Things Solver darko@thingsolver.com
  • 2. Agenda • Big Data • Hadoop • HDFS • Map Reduce • YARN • SPARK • Ekosistem
  • 3. Big Data • Big Data predstavlja podatke koji pristižu velikom brzinom i one su količine koja prevazilazi mogućnosti tradicionalnog softvera za skladištenje, obradu i upravljanje podacima. • Big Data je sve ono što ne može da stane u Excel.
  • 4. Big Data - Dimenzije Kompleksnost podataka Količina (Volume) Raznovrsnost (Variety) Brzina (Velocity) Kvalitet (Veracity)
  • 5. Big Data – Izvori podataka • Društvene mreže (Twitter, Facebook…) • Email, HTML, Click Stream • slike, video, logovi, senzorski podaci • Relacione baze podataka
  • 7. Big Data - Korisnici
  • 8. Hadoop • Hadoop je open-source softver Apache fondacije. • Služi za skladištenje i procesiranje velikih količina podataka. • Napisan je u Java programskom jeziku.
  • 9. Hadoop • Hadoop Common • HDFS • Map Reduce • YARN
  • 13. Hadoop YARN • ResourceManager • Scheduler – Alokacija resursa • ApplicationsManager – Prihvatanje poslova … • Nove aplikacije na Hadoop-u (Real Time, Interactive…) • Veća iskorišćenost resursa
  • 14. Spark • Apache Spark je platforma za Big Data obradu, sa ugrađenim modulima za mašinsko učenje, SQL, streaming i graf obradu. • Obrada u memoriji. • 10x brži od Map Reduce-a.
  • 15. Hadoop • Hadoop nije zamena za RDBMS. • Hadoop nije baza podataka. • Offline analitika. • Jedan data centar.
  • 16. Hadoop Mane • Brzina • Kompleksnost • Podrška • Obrada u memoriji • Streaming
  • 17. Ekosistem • Hadoop je moguće nadogaraditi brojnim alatima kojima se poboljšavaju mogućnosti i efikasnost obrade podataka. • Dele se na alate za prenošenje podataka, analizu podataka, upravljanje klasterom…
  • 18. Ekosistem – Neki od alata • Unos podatak • Flume • Kafka • Sqoop • … • Obrada • Hive • Pig • Storm • … • Upravljanje klasterom • Ambari • ..
  • 20. Korisni linkovi • Hadoop Srbija • Hadoop • Hortonworks • Cloudera
  • 21. Big Data: Hadoop i njegov ekosistem Darko Marjanović CEO & Co-Founder @ Things Solver darko@thingsolver.com