Apache Hadoop je alat za skladištenje i obradu podataka koje nazivamo Big Data. Vremenom je postao standard u ovoj oblasti i danas je teško zamisliti Big Data aplikaciju bez istog. Sastoji se iz četiri komponente koje omogućavaju skladištenje podataka, obradu, ali i dalju nadogradnju u nešto što se naziva Hadoop ekosistem. Lako se integriše sa tradicionalnim rešenjima.
1 of 21
More Related Content
Data Science Conference Belgrade
1. Big Data: Hadoop i njegov
ekosistem
Darko Marjanović
CEO & Co-Founder @ Things Solver
darko@thingsolver.com
3. Big Data
• Big Data predstavlja podatke koji pristižu velikom brzinom i one su
količine koja prevazilazi mogućnosti tradicionalnog softvera za
skladištenje, obradu i upravljanje podacima.
• Big Data je sve ono što ne može da stane u Excel.
4. Big Data - Dimenzije
Kompleksnost podataka
Količina (Volume)
Raznovrsnost (Variety) Brzina (Velocity)
Kvalitet (Veracity)
5. Big Data – Izvori podataka
• Društvene mreže (Twitter, Facebook…)
• Email, HTML, Click Stream
• slike, video, logovi, senzorski podaci
• Relacione baze podataka
8. Hadoop
• Hadoop je open-source softver Apache fondacije.
• Služi za skladištenje i procesiranje velikih količina podataka.
• Napisan je u Java programskom jeziku.
13. Hadoop YARN
• ResourceManager
• Scheduler – Alokacija resursa
• ApplicationsManager – Prihvatanje poslova …
• Nove aplikacije na Hadoop-u (Real Time, Interactive…)
• Veća iskorišćenost resursa
14. Spark
• Apache Spark je platforma za Big Data obradu, sa ugrađenim
modulima za mašinsko učenje, SQL, streaming i graf obradu.
• Obrada u memoriji.
• 10x brži od Map Reduce-a.
15. Hadoop
• Hadoop nije zamena za RDBMS.
• Hadoop nije baza podataka.
• Offline analitika.
• Jedan data centar.
17. Ekosistem
• Hadoop je moguće nadogaraditi brojnim alatima kojima se
poboljšavaju mogućnosti i efikasnost obrade podataka.
• Dele se na alate za prenošenje podataka, analizu podataka,
upravljanje klasterom…