Location via proxy:
[ UP ]
[Report a bug]
[Manage cookies]
No cookies
No scripts
No ads
No referrer
Show this form
Submit Search
Submit Search
Upload
Realtime Big data Anaytics and Exampes of Daum (2013)
โข
103 likes
โข
15,754 views
Channy Yun
Follow
Report
Share
Report
Share
1 of 43
Download now
Download to read offline
More Related Content
Realtime Big data Anaytics and Exampes of Daum (2013)
1.
์ค์๊ฐ ๋น ๋ฐ์ดํฐ
๊ธฐ์ ํํฉ ๋ฐ Daum ํ์ฉ ์ฌ๋ก ์๊ฐ ์ค์์ฐฌ ๋ค์์ปค๋ฎค๋์ผ์ด์ channy@daumcorp.com
2.
Agenda Daum์ ๋์ฉ๋ ๋ถ์ฐ
๊ธฐ์ โ ๋์ฉ๋ ์คํ ๋ฆฌ์ง ์ ๊ณต (Tenth) โ ํญ์ฆํ๋ ์์ ๋ฐ์ดํฐ (Santa/Wcache) ์ค์๊ฐ ๋ถ์ ๊ธฐ์ ์๊ฐ ๋ฐ ๋ํฅ โ ์ค์๊ฐ ๋ถ์ ๋ฐ SQL on Hadoop ๊ธฐ์ ์๊ฐ Daum์ ์ค์๊ฐ ๋ถ์ ํ์ฉ ์ฌ๋ก โ ๋ฏธ๋์ด ๋ค์ ์ค์๊ฐ ๋ถ์ ์ฌ๋ก โ ๋ค์ํ ์ค์๊ฐ ๋ถ์ ์ฌ๋ก
3.
์๋ ์ด์ผ๊ธฐ Daum์ด ์ง๋ฉดํ๋
๋ ๊ฐ์ง ๋ฌธ์ ๋น ๋ฐ์ดํฐ ๊ธฐ์ ์ ๋ฐ์ ์ ๋์ ์ ํ๊ฒฝ์ ๊ฒฐ๊ณผ!
4.
1. ๋์ฉ๋ ์คํ ๋ฆฌ์ง
์ ๊ณต ๋ช ์ค ์๋ถํ ๊ตญ๋ด ์ต๋ ์ ์ฅ์ฉ๋ ์ ๊ณต ์ค per User 2004 2006 2012
5.
How to? Tenth(2005)
ํ๋ก์ ํธ ๋๋ถ๋ถ ์ฒจ๋ถ ํ์ผ์ 30์ผ์ด ์ง๋๋ฉด ์๋ณธ๋ค? ์ค๋๋ ํ์ผ์ ๊ฐ์ผ ์คํ ๋ฆฌ์ง์ ์ ์ฅํด ๋๊ณ ์ฌ์ฉ์๊ฐ ์ํ ๋ ๋นจ๋ฆฌ ์ฐพ์์ฃผ๋ฉด ๋์ง ์์๊น? โข ์ธ๋ถ ๋ถ์ฐ ์คํ ๋ฆฌ์ง ๊ธฐ์ ๏ ๏ ๏ Google GFS (2003) Yahoo HDFS (2007) NHN OwFS (2010) ๊น๋จํฌ(2008), Tenth: Daum์ ๋์ฉ๋ ๋ถ์ฐ ํ์ผ ์์คํ ์๊ฐ http://www.platformday.com/2008/files/tenth-daum.pdf
6.
Tenth vs. HDFS Tenth๋
ํ๋ฉ์ผ, ์นดํ ์ฒจ๋ถ ํ์ผ ๋ฑ ๋์ฉ๋ ํ์ผ์ ์ ๋ ดํ๊ฒ ์ ์ฅํ ๊ธฐ ์ํ ๋ถ์ฐ ํ์ผ ์์คํ ์ผ๋ก 2005๋ ๋ถํฐ ๊ฐ๋ฐ โ 2006๋ ๋ผ์ด์ฝ์ค๋ฉ์ผ, ์นดํ ๋์ โ 2007๋ ํ๋ฉ์ผ ๊ธฐ๊ฐ ์ฉ๋ ๋์ โ 2009๋ ๋์์ ์ ๋ก๋ํ ๋์ โ 2010๋ ๋ค์ ํด๋ผ์ฐ๋ ๋์ 2013 ํ์ฌ, ํ์ผ 800์ต๊ฐ(Dual Backup), 30ํํ๋ฐ์ดํธ (Zipped) Tenth ๋น๊ต HDFS 2005 ๊ฐ๋ฐ ์์ 2006 C++ ๊ตฌํ ์ธ์ด Java ์ฒจ๋ถ ํ์ผ์ ์ ์ฅํ๊ธฐ ์ํด ํ๋์ ์คํ ๋ฆฌ์ง ์ฒ๋ผ ์ด์ฉ ๊ฐ๋ฅ ์ด์ฉ ๋ชฉ์ ๋ถ์ฐ ์์คํ ์์ ํ์ผ ์ ์ฅ ์ฉ ๋๋ก ํ์ฉ ๋ค์ค (MySQL์ด์ฉ) ๋ค์ ๋ ธ๋ ์ฑ๊ธ 1~4MB (fixed chunks) ํ์ผ ํํ 64MB (fixed blocks) ๋ฏธ์ง์ ๋๋ ํ ๋ฆฌ ๊ตฌ์กฐ ์ง์ํจ
7.
2. ํญ์ฆํ๋ ์์
๋ฐ์ดํฐ ์ด๋ถ์งํ ํ ์ ์ญ๋ง๋ช ์ด ๋์์ ๊ธ์ ์ฐ๋ฉด? ๋ฐ์ดํฐ๋ฒ ์ด์ค(RDBMS)๋ ๊ณผ๋ํ ์ฐ๊ธฐ(์์ )๋ฅผ ํ๋ฉด ์๋ฒ๊ฐ ๋ค์ด๋ ์ ๋ฐ์ ์๋ค. ์ค์์ฐฌ(2008), ๋ํต๋ น ํํต ์ฒญ์์ผ๋ก ๋ณธ ์๊ณ ๋ผ์ ๊ธฐ์ ์ ๋์ http://blog.creation.net/260
8.
How to? ๋ถ์ฐ
๋ฐ์ดํฐ ์บ์ โ ๊ธ ์กฐํ์๋ฅผ ์๋ฒ ๋ฉ๋ชจ๋ฆฌ์ ๋ชจ์ ๋์๋ค๊ฐ ์ด๋ ์ ๋ ๋ชจ์ด๋ฉด ํ๊บผ๋ฒ์ ์ ๋ฐ์ดํธํ๋ฉด ์ด๋จ๊น? ์ต๋ฒ๊ท (2008), EHCache๋ฅผ ์ด์ฉํ Gaia ์บ์ ๊ตฌํ, http://javacan.tistory.com/123 โก DB ์์ ๋ฐ์ดํฐ ์บ์ ์๋ฒ๋ฅผ ๋๋ฉด ์ด๋จ๊น? Pizza(2002) Santa(2008) Wcache(2010) ํ์ฌ ๋ด๋ถ์์ ์ฌ์ฉํ๋ ์ธํ์ฐ์ค ๋ฏธ๋ค์จ์ด๋ก JDBC ๋ณ๋ชฉํด ๊ฒฐ, ๋ฐ์ดํฐ ์บ์ ์๋ฒ ๋ฐ ๋์ฉ๋ ์บ์ ์๋ฒ ํ ๋ฑ์ผ๋ก ์งํ.
9.
Twitter๋ ๋ค๋ฅด์ง ์์๋ค! ์
์ธ๊ณ ์ฌ๋๋ค์ด ํจ๊ป ํ ๋ก ํ๋ฉด ์ด๋ป ๊ฒ ๋ ๊น? ๋ผ๋ ๋๋ ๋ง์ ๋น ์ง ์ฆ์ ์ฅ์ ์ค์์ฐฌ(2009), ํธ์ํฐ์ ์ฅ์ ๊ทน๋ณต ์ด์ผ๊ธฐ http://channy.creation.net/blog/714
10.
๋ฐ์ดํฐ ํญ์ฆ ์๋์
๋ ๊ฐ์ง ๋ฌธ์ @mdennis, datastax
11.
๋น ๋ฐ์ดํฐ๋?
12.
์ต๊ทผ BigData ๊ธฐ์
๋ํฅ ๋น๊ด๊ณํ(Non-releational) ์๊ฐํ D3js Pentaho Hadoop Horton Cloudera MapR Intel EMC ๊ด๊ณํ(Relational) ์ค์๊ฐ Storm/Shark Apache S4/Kafka Apache Drill Apache Tazo Teradata Aster EMC Greenplum IBM InfoSphere HP Vertica SAP Hana Oracle SAP Cloudera Impala Google BigQuery Oracle IBMDB2 NewSQL NoSQL ํค/๊ฐ Redis Membrain BerkeleyDB CouchBase Cassandra SQLServer ๋ฌธ์๊ธฐ๋ฐ CouchDB MongoDB ๋น ํ ์ด๋ธ HyperTable Hbase Data as a Service AppEngine Amazon RDS SimpleDB SQL Azure ๊ทธ๋ํ FlockDB Neo4j Drizzle MySQL Cluster NimbusDB ScaleBase VoltDB Modified ยฉ Inforchimps. 2012
13.
Hadoop ๊ธฐ์ batch
analytics REDUCE MAP Input โฆ ๋ณต์กํ ๋ฌธ์ ๋ฅผ ์์ ๋ฌธ์ ๋ก ์ชผ๊ฐ ๋ค โฆ ๋ฌธ์ ๋ฅผ ์ฌ๋ฌ ์๋ฒ์ ๋๋์ด์ ํด๊ฒฐํ๋ค ๊ฒฐ๊ณผ๋ฅผ ๋ชจ์์ ํฉ์น๋ค Output โฆ
14.
Hadoop์ ์ฅ๋จ์ ์ฅ์ :
๊ธฐ์กด ๋ถ์ ๊ธฐ์ ์ ๋นํด ์ ๋ ดํ๊ฒ ๋ฐ์ดํฐ ๋ถ์ ๊ฐ๋ฅ โ ๋ฐ์ดํฐ๋ฅผ ๋ฐ๋ผ ๋ณด๋ ๊ด์ ์ ์ฐจ์ด (์ ๋ ดํ ์ฒ๋ฆฌ ๋น์ฉ) โ ์ํ๋ง์ด ํ์ ์์ (๋์ฉ๋ ์ฒ๋ฆฌ ๊ฐ๋ฅ) โ ์ด์ ๋น์ฉ์ด ์ ์ (์ธํ๋ผ ์ด์์ด ๊ด๋ฆฌ ๊ฐ๋ฅ) โ ๋ถ์๋๊ตฌ๋ ํ๋ก๊ทธ๋๋ฐ ์ธ์ด์ ๋ ๋ฆฝ์ ์ โ ๋ค์ํ ๊ฐ๋ฐ ๋๊ตฌ (์คํ ์์ค ์ง์) ๋จ์ : ๋ถ์ ๋ฐฉ์์ ๋ณํ ๋ฐ ๋ด์ฌํ ๋น์ฉ โ ๊ฐ๋ ์ ๋ณํ๊ฐ ํ์ (Map/Reduce์ ์ฌ๊ณ ์ ํ ํ์) โ Hadoop์ ์งํ ์ค(๋ฒค๋ ๋ฐฐํฌํ ์ฌ์ฉ ๊ธฐํ ๋์ด๋จ) โ ์์ง ๊ตฌํ๋์ง ์์ ๋ถ๋ถ์ด ๋ง์(๋ฒ์ ํธํ์ฑ์ด ๋ฎ์ ํธ) โ ์ฅ์ ์ ๋ํ ๋๋น ํ์(๋ฉ๋ชจ๋ฆฌ ๋ฐ ๋คํธ์ ๊ด๋ จ ์ํ์ฐฉ์ค) โ ์ค์๊ฐ ๋ถ์์ ๋ํ ํ์์ฑ (๋์ ๊ธฐ์ ์ ํ์ ์ฌ์ฉ)
15.
NoSQL Not Only
SQL Yahoo! Research(2010), Cloud Serving Benchmark http://research.yahoo.com/files/ycsb-v4.pdf ๋์ฉ๋ ๋ฐ์ดํฐ ์ ๋ฐ์ดํธ ๋ฐ ์กฐํ ์, ๊ธฐ์กด RDBMS์ ๋นํด ๋น ๋ฅธ ์ฑ๋ฅ ์ ๊ณต ๊ตฌ์กฐ๊ฐ ๊ฐ๋จํ ๋๋ ์ด๋ฒคํธ ๋ฐ ๋ก๊ทธ ๋ฐ์ดํฐ ์ ์ฅ ๋ฐ ์กฐํ ์ ์ ์ฉ
16.
NoSQL์ ์ฅ๋จ์ ์ฅ์ : ๋น ๋ฅด๊ณ
์ ์ฐํ ๋ฐ์ดํฐ ์ ์ฅ ๋ฐ ์กฐํ ๋ฅ๋ ฅ โ ๋ฐ์ดํฐ๊ฐ ์ฆ๊ฐํจ์ ๋ฐ๋ผ์ ๋ ธ๋์ ๊ฐฏ์๋ง ๋๋ฆฌ๋ฉด ๋จ(ํ์ฅ์ฑ๊ณผ ๊ฐ์ฉ์ฑ) โ Key-Value ํ์์ผ๋ก ์ ์ฅํ๋ฏ๋ก ์ ์ฐํ ๋ฐ์ดํฐ ๊ตฌ์กฐ(Schemaless) โ ๋ฐ์ดํฐ ์ธ๋ฑ์ฑ์ผ๋ก ๋น ๋ฅธ ์๋ต ๊ฐ๋ฅ(๊ณ ์ฑ๋ฅ)์ฅ์ : ๊ธฐ์กด ๋ถ์ ๊ธฐ์ ์ ๋นํด ์ ๋ ดํ๊ฒ ๋ฐ์ดํฐ ๋ถ์ ๊ฐ๋ฅ ๋จ์ : ๋ถ์ ๋ฐฉ์์ ๋ณํ ๋ฐ ๋ด์ฌํ ๋น์ฉ โ ์คํค๋ง ์ค๊ณ, ์๋ฒ ๋คํธ์ํฌ ๊ตฌ์ฑ, ๋ฉ๋ชจ๋ฆฌ/IO ๋ฑ์ ์ํ์ฐฉ์ค โ ๋ฐ์ดํฐ ๋ฌด๊ฒฐ์ฑ(integrity)์ ์ํ ์ฒ๋ฆฌ ๋น์ฉ์ด ํผ โข ํธ๋์ญ์ ๊ณผ ๊ฐ์ ๋ณต์กํ ์ฒ๋ฆฌ์ ์ ํฉํ์ง ์์ โข ์ฅ์ ์ ๋ฐ์ดํฐ ๋ณต๊ตฌ์ ๋๋ ๋ ธ๋ ฅ์ด ๋ง์ด ๋ฆ โ Schemaless๋ผ์ Join ๊ณผ ๊ฐ์ ๋ณต์กํ ์ฟผ๋ฆฌ ์ฌ์ฉ ์ด๋ ค์ โข MongoDB ๊ฐ์ ๊ฒฝ์ฐ, ๋น ๋ฅธ ์ธ๋ฑ์ฑ ๋ฐ SQL ์นํ์ ์ธ ์ง์ ๊ฐ๋ฅ
17.
Realtime Event-streaming ๋ถ์์ ํฌํจ ๋์ง
๋ชปํ๋ ์ค์๊ฐ ๋ฐ์ดํฐ ํ์ ์คํ์์ค ๊ธฐ์ ๋ช ๊ตฌํ ๋ฐฉ์ ๊ตฌํ ์ธ์ด ๋ฌธ์ํ ์ฆ์ Rule ์ถ๊ฐ ๊ธฐ๋ฅ ์ฑ์๋ ์ปค๋ฎค ๋ํฐ Scaleout ๋ฐฉ์ Esper ์ ์ธ์ SQL Like Java ๋งค์ฐ ์ข์ ๊ฐ๋ฅ ๋์ ์ค๊ฐ Droools Fusion ์ ์ธ์ SQL Like ๋ฐ Rule Java ์ข์ ๊ฐ๋ฅ ๋์ ์์ Storm Scaleup ๋ฐฉ์ Job ์ค๊ณ Cloujure ์์ Zoopkeeper ์ด์ฉ ์ค๊ฐ ๋น ๋ฅด๊ฒ ์ฑ์ฅ์ค Apache S4 Job ์ค๊ณ Java ํ๊ท Zoopkeeper ์ด์ฉ ๋ฎ์ ์ค๊ฐ Apache Kafka Job ์ค๊ณ Java ์ข์ Zoopkeeper ์ด์ฉ ์ค๊ฐ ์์ ๊น๋ณ๊ณค(2013), ๋ฐ์ดํฐ๋ฅผ ์ค์๊ฐ์ผ๋ก ๋ชจ์์ ์ฒ๋ฆฌํ๋ ๋ค์ํ ๊ธฐ๋ฒ http://www.youtube.com/watch?v=HmVegCGWbsU
18.
์ค์๊ฐ ๋ถ์์ ์ด๋ ค์ โ
Hadoop์ ๋ฐฐ์น(Batch) ์ฒ๋ฆฌ ๋ฐฉ์์ด๋ผ ์ค์๊ฐ์ ์ ํฉํ์ง ์์ โ NoSQL์ ๋ฐ์ดํฐ ์ ์ฅ๋ง ๋น ๋ฅด์ง ๋ถ์ ๋ฐ์ดํฐ๋ฅผ ๊ฑธ๋ฌ๋ด๊ธฐ ์ด๋ ค์ Storm https://github.com/nathanmarz/storm/wiki โ Twitter(๊ตฌ, BackType)์์ ์ง์ ๊ฐ๋ฐํด์ ์คํ์์คํ โ Data Stream์ ๋ฐ๋ผ๋ณด๊ณ ์ค์๊ฐ์ผ๋ก ๋ฐ์ดํฐ๋ฅผ ๋ฐ๋ผ๋ณด๋ ๋ก์ง์ ๊ตฌํ โ ๋ก์ง(Topology)๋ฅผ Storm Cluster๋ก ๋์ง๋ฉด ์ ์ ํ ์คํํด์ ๋ถ์ Data Stream NoSQL Data Stream Node.js Spout Bolt
19.
SQL on Hadoop ๋ถ์
์ ์ฒ๋ฆฌ ์์ ์์ด ๋ฐ์ดํฐ ํํฉ ํ์ ํ์ ์ โ ์ธ๋ฉ๋ชจ๋ฆฌ/ํ์ผ ๊ธฐ๋ฐ ๋ถ์ฐ ๊ธฐ์ ์ ํ์ฉํ ์ฟผ๋ฆฌ ์์ง โ Map/Reduce๋ฅผ ์ฌ์ฉํ ํ์๊ฐ ์๋ ์ง์ ์กฐ๊ฑด์ผ ๋ ํ์ฉ ์ฃผ์ ์คํ ์์ค ๊ธฐ์ โ Impala: Cloudera Hadoop ๋ฐฐํฌํ ๋ฐ HiveQL ํธํ โ Apache Tajo: HDFS ์ง์ ๋ฐ ํ์ค SQL ํธํ โ Apache Dremel: MapR์์ ์ฃผ๋ํ๋ฉฐ, ์์ง ์ด๊ธฐ ๊ฐ๋ฐ ๋จ๊ณ ์์ฉ ์๋น์ค: Google BigQuery โ Dremel ๊ธฐ์ ์ ํ์ฉํ ์์ฉ ์๋น์ค Cloudera Impala Horton Hawq MapR Stinger Apache Tajo Apache Drill
20.
Berkeley Stack ์ฃผ์ ํน์ง โ โ ์ธ๋ฉ๋ชจ๋ฆฌ
๊ธฐ๋ฐ์ ์๋ก์ด ์คํ์์ค ๋ถ์ ๊ธฐ์ ๋ก ํน์ ๋ฐ์ดํฐ์ ๊ฒฝ์ฐ, Haoop์ ๋นํด ์ ์ญ๋ฐฐ ๋น ๋ฅธ ์ฒ๋ฆฌ ์๋ ๊ธฐ์กด Hadoop ๊ธฐ์ ๊ณผ ํธํ์ฑ ๊ทน๋ํํ์ฌ ๊ฐ๋ฐ์ ์ง์, But ์ธ๋ฉ๋ชจ๋ฆฌ ๊ฐ์ง๋ ํ๊ณ ์์ Spark http://spark-project.org โ โ โ ์คํ ๋ฆฌ์ง In/Out ๋์ ์ฃผ์ ๋ฐ์ดํฐ์ ์ ๋ฉ๋ชจ๋ฆฌ์ ์ฌ๋ ค ์ Iteration์ ์ต์ ํ ์ํด (๋จธ์ ๋ฌ๋/๊ทธ๋ํ ํ์) Interactive Data Mining์ ๋ํ ์ต์ ํ (R/Excel/Python ๋ฑ) ๊ธฐ์กด HDFS ํธํ ๋ฐ Scala, Java, Python ๊ธฐ๋ฐ ํ๋ก ๊ทธ๋๋ฐ ๊ฐ๋ฅ Spark Streaming โ ์คํธ๋ฆฌ๋ฐ ๋ฐ์ดํฐ์ ๋ํ ๋ถ์ ๊ธฐ๋ฅ ์ ๊ณต Shark http://shark.cs.berkeley.edu/ โ HiveQL ๊ธฐ๋ฐ์ ๋ถ์ ๊ธฐ๋ฅ ์ ๊ณต UC BERKELEY
21.
์์ฝํ๋ฉดโฆ Hadoop = Function
(All Data) โ Cloudera, Horton, MapR, Intel, EMC Realtime Event = Function (Data Stream) โ Storm, S4, Kafla SQL on Hadoop = Query (All Data) โ Impala, Dremel, Tajo, BigQuery NoSQL = Query (Data Store) โ Mongodb, Hbase, Cassandraโฆ
22.
SQL on Hadoop
100๋ฐฐ, 200๋ฐฐ ์ฑ๋ฅ์ ์ง์ค http://jaso.co.kr/480 ํ์ฌ SQL-On-Hadoop ์ง์์์ ์ ์ํ๋ ๋๋ถ๋ถ์ ์ฑ๋ฅ ์์น๋ ์ผ๋ฐ์ ์ธ ์ง ์๋ ์ ์ฒด ์ง์์ ๋ํด์ ํ๊ท ๋ช ๋ฐฐ ๋น ๋ฅด๋ค๊ฐ ์๋ ์์ ๋ค์ด ์ ๋ฆฌํ ์กฐ๊ฑด ์์ ํ ์คํธํ ๊ฒฐ๊ณผ๋ง์ ์ธ๊ธํ๋ ๊ฒฝ์ฐ๊ฐ ๋ง๋ค. ํ์์ ํ ์คํธ ๊ฒฐ๊ณผ ๋ฅผ ๋ณด๋ฉด ๋๋ต ํ๊ท 3 ~ 5๋ฐฐ ์ ๋์ด๊ณ ์ง์์ ์ข ๋ฅ์ ๋ฐ๋ผ ์ ์ญ๋ฐฐ ์ ๋ ๋น ๋ฅผ ์ ๋ ์๊ณ , ๋ ๋๋ฆด ์๋ ์๋ค. ์์ ์ ๋ฐ์ดํฐ ์์ฑ๊ณผ ์ง์ ์์ฑ์ ๋ง๋ ํ๋ซํผ์ ์ ํํ๋ ์ ๋ชฉ์ด ํ์ํ ๋์ด๋ค. ๋ฏธ๊ตญ์ฐ ๋ฒค๋, ๋ธ๋ก๊ทธ, ์ธ๋ก ์์ ์ ์ํ ์์น๋ผ๊ณ ๋งน์ ํ ๋ ๊ฒ์ ๊ธ๋ฌผ์ด๋ค. SQL on Hadoop 100๋ฐฐ, 200๋ฐฐ ์ฑ๋ฅ์ ์ง์ค (๊นํ์ค) ์ค์์โฆ
23.
Daum ๋น ๋ฐ์ดํฐ ํ์ฉ
์ฌ๋ก โข โ โ โ โ โ โ โข ์ผํ ํ์ฐ ์ํ ํด๋ฆญ ๋ถ์ ์ฌ๋ก ๋ค์ Top ํ ํฝ ๋ถ์ ๋ฐ ์ถ์ฒ ์๋น์ค UCC ๋ฌธ์์ ์คํธ ์ ์ ํํฐ๋ง ์ฌ๋ฌผ ๊ฒ์ ์ด๋ฏธ์ง ์ญ์์ธ ์์ฐ์ด ์ฒ๋ฆฌ ํ ์คํธ ๋ถ์ ๋ชจ๋ฐ์ผ ๊ด๊ณ ๋ฐ์ดํฐ๋ณ ๋งค์ฒด ๋ถ์ ๋ฑ ์ฐ๊ตฌ ๊ฐ๋ฐ ์ฌ๋ก โ โ ์ด๋ฏธ์ง ์ ์ฌ์ฑ ๋งค์นญ ๋ถ์ ๋์ฉ๋ ์๋งจํฑ ์น ๊ฒ์ ์์ง ๊ฐ๋ฐ โข ๋ง์ด ์๊ณ ๋ผ ๊ฒ์ ๊ด๊ณ ๋ ธ์ถ ์ต์ ํ ์ต๊ทผ ๋ฐฉ๋ฌธ ์นดํ ์ ์ฅ ์ฌ๋ด ์บ์ ์๋ฒ(Redis) ์ฌ๋ด Git ์ ์ฅ์(Redis) ๋ฐ์ดํฐ ์ฒ๋ฆฌ (Hbase) โข โข โข โข ๊ฒ์ ์์ง ์์ธ ๋ฌธ์ ์ ์ฅ ์๋ฒ ๋ชจ๋ํฐ๋ง ๋ฐ์ดํฐ ์ ์ฅ ๋ก๊ทธ์ธ ๋ก๊ทธ ์ ์ฅ ์นดํ ๋ฐฉ๋ฌธ ๋ก๊ทธ ์ ์ฅ ์ค์์ฐฌ(2012), Daum ๋น ๋ฐ์ดํฐ ๊ธฐ์ ํ์ฉ ์ฌ๋ก http://www.slideshare.net/Channy/daums-hadoop-usecases http://devon.daum.net/2012/session/o1 ์ด๋ฏธ ๊ณต์ ๋ง์ด ํ์ด์!! ์ฐพ์๋ณด์ธ์~~ ์๋น์ค ์ ์ฉ (MongoDB/์นด์ฐ๋๋ผ) โข โข โข โข โข ์ ์ฌ ๋ก๊ทธ๋ฅผ ํตํ ํต๊ณ ๋ถ์ ๊ด๊ณ ๋ก๊ทธ ๋ถ์์ ํตํ ํ๊ฒํ ๊ฒ์ ํ์ง ๋ญํน ๋ถ์ ๋ฐ ๊ฐ์ ๊ด๊ณ ๋ฐ ํด๋ฆญ ๋ก๊ทธ ๋ถ์์ ํตํ ํ์ผํ ์นดํ ๋ก๊ทธ ๋ถ์์ ํตํ ์ฌ์ฉ์ ์นดํ ์ถ์ฒ ๊ฒ์ ์๋ฒ ๋ก๊ทธ ๋ถ์ ๋ฑ ๋ฐ์ดํฐ ๋ถ์ ์ฌ๋ก โ โ โ โ โ โ โข โข ๋ก๊ทธ ๋ถ์ ์ฌ๋ก ๊น์ฉ์ฐ, ์ด์ ํธ(2012), Hadoop ์ค์ ์ฌ์ฉ๊ธฐ http://devon.daum.net/2012/session/o2 ์ ์์ญ, ์ต์ค๊ฑด(2012), ์๊ณ ์ฐ์! NoSQL http://devon.daum.net/2012/session/o3 ์์ธ์ค(2012), ์ฝ์ง๋ก ์ผ๊ถ๋ธ ์นด์ฐ๋๋ผ ์ฌ์ฉ๊ธฐ http://devon.daum.net/2012/session/o4 ์ค์์ฐฌ(2012), Daum ๋น ๋ฐ์ดํฐ ๋น์ง๋์ค ๋ถ์ ์ฌ๋ก http://www.slideshare.net/Channy/daum-bigdata-analytics-usecases
24.
Daum ์ค์๊ฐ ๋ถ์
์ฌ๋ก โข ๋ก๊ทธ ๋ถ์ ์ฌ๋ก โ โ โ โ โ โ โข ๋ฐ์ดํฐ ๋ถ์ ์ฌ๋ก โ โ โ โ โ โ โข ์ ์ฌ ๋ก๊ทธ๋ฅผ ํตํ ํต๊ณ ๋ถ์ ๊ด๊ณ ๋ก๊ทธ ๋ถ์์ ํตํ ํ๊ฒํ ๊ฒ์ ํ์ง ๋ญํน ๋ถ์ ๋ฐ ๊ฐ์ ๊ด๊ณ ๋ฐ ํด๋ฆญ ๋ก๊ทธ ๋ถ์์ ํตํ ํ์ผํ ์นดํ ๋ก๊ทธ ๋ถ์์ ํตํ ์ฌ์ฉ์ ์นดํ ์ถ์ฒ ๊ฒ์ ์๋ฒ ๋ก๊ทธ ๋ถ์ ๋ฑ ์ผํ ํ์ฐ ์ํ ํด๋ฆญ ๋ถ์ ์ฌ๋ก ๋ค์ Top ํ ํฝ ๋ถ์ ๋ฐ ์ถ์ฒ ์๋น์ค UCC ๋ฌธ์์ ์คํธ ์ ์ ํํฐ๋ง ์ฌ๋ฌผ ๊ฒ์ ์ด๋ฏธ์ง ์ญ์์ธ ์์ฐ์ด ์ฒ๋ฆฌ ํ ์คํธ ๋ถ์ ๋ชจ๋ฐ์ผ ๊ด๊ณ ๋ฐ์ดํฐ๋ณ ๋งค์ฒด ๋ถ์ ๋ฑ ์ฐ๊ตฌ ๊ฐ๋ฐ ์ฌ๋ก โ โ ์ด๋ฏธ์ง ์ ์ฌ์ฑ ๋งค์นญ ๋ถ์ ๋์ฉ๋ ์๋งจํฑ ์น ๊ฒ์ ์์ง ๊ฐ๋ฐ โข ์๋น์ค ์ ์ฉ (MongoDB/์นด์ฐ๋๋ผ) โข โข โข โข โข โข ๋ง์ด ์๊ณ ๋ผ ๊ฒ์ ๊ด๊ณ ๋ ธ์ถ ์ต์ ํ ์ต๊ทผ ๋ฐฉ๋ฌธ ์นดํ ์ ์ฅ ์ฌ๋ด ์บ์ ์๋ฒ(Redis) ์ฌ๋ด Git ์ ์ฅ์(Redis) ๋ฐ์ดํฐ ์ฒ๋ฆฌ (Hbase) โข โข โข โข ๊ฒ์ ์์ง ์์ธ ๋ฌธ์ ์ ์ฅ ์๋ฒ ๋ชจ๋ํฐ๋ง ๋ฐ์ดํฐ ์ ์ฅ ๋ก๊ทธ์ธ ๋ก๊ทธ ์ ์ฅ ์นดํ ๋ฐฉ๋ฌธ ๋ก๊ทธ ์ ์ฅ โข ์๋น์ค ๋ถ์ โ ๋ฏธ๋์ด ๋ค์ ์ค์๊ฐ ๋ถ์ โ ๋ชจ๋ฐ์ผ/PCํ ์ค์๊ฐ ๋ถ์ โข ๋ฐ์ดํฐ ์์ง โ Twitter ์ค์๊ฐ ๋ฐ์ดํฐ ์์ง๊ธฐ
25.
Daum ๊ธฐ์ ํ์ฉ ์ฌ๋ก
26.
์ค์๊ฐ ๋ถ์์ด ํ์ํ
๋โฆ ํ์ฉ ๋์ ์์ญ โ ์ผํ๋ชฐ ์ฌ์ดํธ์ ์ฌ์ฉ์ ํด๋ฆญ ์คํธ๋ฆผ์ ํตํด ์ค์๊ฐ ๊ฐ์ธํ โ ์ฌ์ฉ์ ์์น ์ ๋ณด ๊ธฐ๋ฐ ๊ด๊ณ ๋ฐ ์ถ์ฒ ๊ธฐ๋ฅ โ ์์คํ ์ด๋ฒคํธ๋ฅผ ์ด์ฉํ ์ค์๊ฐ ๋ณด์ ๊ฐ์ โ ์ฐจ๋ ์ถ์ ๋ฐ ์์น ์ ๋ณด ์์ง์ ์ด์ฉํ ๋๋ก ๊ตํต ์ํฉ ํ์ โ ์ฌ์ฉ์์ ์ก์ ์์ง์ ์ด์ฉํ ์ด์ ํ์ ํ์ง ๊ธฐํ์์ ์๊ตฌ ์ฌํญ โ ๋ฐ์ดํฐ๊ฐ ๋ณํ๋๋ ๋ชจ์ต์ ํ๋ฉด์์ ๋ฐ๋ก ๋ณด๊ณ ์ถ๋ค! โ ๊ฐ๊ฒฐํ ์ฐจํธ์ ์ ํ ๋ฐ ์ค์๊ฐ ๋ณํ๋ฅผ ๋ณด๊ณ ์ถ๋ค! ๊ธฐ์ ์๊ตฌ ์ฌํญ โ ๋ก๊ทธ ์์ง, ์ค์๊ฐ ๋ถ์ ๋ฐ ์ฅ๊ธฐ ๋ถ์์ ์ํ ์ ์ฅ์ ํ์ โ ์ฃผ๊ธฐ์ ์ฐจํธ ์์ฑ ๋ฐ ์ฟผ๋ฆฌ์ ๋ํ ๋ธ๋ผ์ฐ์ ๊ธฐ๋ฐ ๊ธฐ๋ฅ๋ ๊ตฌํ ํ์
27.
1. ๋ฏธ๋์ด ๋ค์
์ค์๊ฐ ๋ถ์ ์ฌ๋ก ๋ฏธ๋์ด ์ฝํ ์ธ ์ ๋ํ ์ค์๊ฐ ํํฉ ํ์ โ ์ด์์ ๋ํ ์ค์๊ฐ ์ํฉ ํ์ ์ ์ํ ๊ด๋ฆฌ ๋๊ตฌ ์ ๊ณต ๋ฏธ๋์ด ์ฝํ ์ธ ์ ๋ํ ์ค์๊ฐ ํํฉ ํ์ โ โ๋๋๊ฐ์๋คโ, โKํ์คํโ ๊ฐ์ ๋์งํธ ๋ธ๋๋์ ๋ํ ๋ณํ ์ธก์ ํ์
28.
๋ฏธ๋์ด๋ค์ ์๊ฐ PV
ํํฉ ยฉ ์ฝ๋ฆฌ์ํด๋ฆญ(2013.10)
29.
์๋น์ค ๊ตฌํ ์
ํ์ฉ ๊ธฐ์ Kestrel โ http://robey.github.io/kestrel/ โ Blaine Cook์ "starling๏ผ์ ๊ธฐ๋ฐํ JVM ๋ถ์ฐ ๋ฉ์์ง ํ ์๋ฒ๋ก ์, memcached ๋ฐ thrift ํ๋กํ ์ฝ์ ์ง์ Storm โ https://github.com/nathanmarz/storm/wiki โ ๋ฐ์ดํฐ ์คํธ๋ฆผ์ ๋ํ ๋ถ์ ๊ธฐ๋ฅ์ ๋ด๋น Redis โ http://redis.io/ โ ๋์คํฌ I/O ์์ด ๋น ๋ฅด๊ฒ ์ฒ๋ฆฌํ๊ธฐ ์ํด์ in-memory key-value store๋ก์ ์์ ๋ถ์๊ฐ์ ์ ์ฅ Cassandra โ http://cassandra.apache.org/ โ ๋ง์ด ์ด์ฉ๋๋ NoSQL ์๋ฒ๋ก์ ๋ถ์๊ฐ์ ์๊ตฌ ์ ์ฅ์๋ก์, Hbase ๋ MySQL ๋ฑ์ด ํ์ฉ๋๊ธฐ๋ ํจ
30.
(1) ์คํธ๋ฆฌ๋ฐ ๋ก๊ทธ
์ป๊ธฐ
31.
์ฝํ ์ธ ๋จ์๋ก ์ง์
๋ก๊ทธ ์์ง
32.
(2) UV/PV ์ฌ๋ฆฌ๊ธฐ
33.
PV/UV ์บ์ ์ ์ฅ
34.
(3) ๋ถ์ ๋ฐ์ดํฐ
์ ์ฅ ๋ฐ ์กฐํ Search, Aggregation, Ranking์ ์ํด ์ง๋ 1๋ถ๋์ UV/PV ๋ณํ๊ฐ ์์๋ ์ปจํ ์ธ ๋ง...
35.
๋ด์ค ๋จ์๋ณ ์ค์๊ฐ
์กฐํ ๊ฐ๋ฅ
36.
๋ค์ํ ๋ถ์ ๊ธฐ๋ฅ
์ ๊ณต ๋ถ ๋จ์ PV/UV ์กฐํ ๊ธ๋ฑ ์กฐํ ๊ธฐ๋ฅ ๊ธฐํ์๋ฅผ ์ํ ํฌ๋กฌ ํ์ฅ ๊ธฐ๋ฅ ๋ถ์ ์กฐํ API ์น ๋ธ๋ผ์ฐ์ ์์ ํ์ธ ๊ฐ๋ฅ
37.
(4) ์ฅ์ ๋์
38.
2. Daum Top
์ค์๊ฐ ๋ถ์ ์ฌ๋ก ๋ค์ PC์น ๋ฐ ๋ชจ๋ฐ์ผ ์น ์ฒซํ๋ฉด ์ฝํ ์ธ ์์ดํ ์ ๋ํ ์ค์๊ฐ ํธ๋ํฝ ํ์ ์ฌ์ฉ์์๊ฒ ๋ง๋ ์ฝํ ์ธ ์ถ์ฒ ๋ฐ ํ๊ธ๋ ฅ ๋ถ์ ๊ฐ๋ฅ
39.
3. Twitter ์ค์๊ฐ
๋ฐ์ดํฐ ์์ง๊ธฐ Twitter, ํฐ์คํ ๋ฆฌ๋ก ๋ถํฐ ์ค๋ Stream Data ์ ์ฅ์ ์ค์๊ฐ ๊ฒ์ ์ธ๋ฑ์ค๋ฅผ ์ํ ๋ฐ์ดํฐ ์์ง ๋ฐ ์ ๊ณต
40.
c.f. ๋ชจ๋ฐ์ผ ์ฑ
ํฌ๋์ ํต๊ณ ๋ชจ๋ฐ์ผ ์ฑ ๋๋ฒ๊น ๋ฐฉ์ โ ์ค์๊ฐ์ผ๋ก Crashing ๋ฐ ์ดํฐ ์์ง ํ์ (Storm/HBase?) โข WebView์์ ๋๋ ์ค๋ฅ๋ ๋ง์ ๋น ๋ฅด๊ฒ ์์ ํ์ โ ํน์ ํฌ๋์์ ๊ด๋ จ ๋ฒ๊ทธ์ ๋ํ ํ์ต ๋ฐฉ๋ฒ์ด ํ์ํจ (Spark/Shark?) โข ๋ฒ๊ทธ์ ํฌ๋์ฌ ์ฌ์ด์ ๊ด๊ณ ์ต์ข ์ฌ์ฉ ๊ธฐ์ โ Hbase M/R ์ค๋ฒ ์์ง๋์ด๋ง์ ๊ธ๋ฌผ!
41.
์ค์๊ฐ ๋ถ์ ๊ตฌ์ถ
์ ์ ์ ์ฌํญ ์ ๋ง ํ์ํ๊ฐ? โ Storm/S4 ๊ฐ์ ๊ธฐ์ ์ ๋์ ์ ์ ๋ง ํ์ํ์ง ํ์ธ ํด์ผ ํจ โ ์ค์๊ฐ ๋ถ์์ ๋ช ํํ ์ ๋ฌด ์ ์๊ฐ ๋ ๊ฒฝ์ฐ์๋ง ์ํ ํด์ผ ํจ โ ๊ธฐ์ ์ ํ (Batch/Realtime/Query)์ ๋ํ ์ดํด ํ์ ํ์ ๊ณ ๋์ ๊ฐ์คํด๋ผ! โ ์ ์๋ ค์ง ์ผ์ด์ค๋ ๋ง์ผ๋ ์ค์ ๋ก ๊ตฌํํ๋ค ๋ณด๋ฉด ์ด๋ ค์ ๋ด์ฐฉ โ ์์คํ ์์ง๋์ด๋ง ์ด์ ๊ธฐ์ ๋ฐ ๋์ฉ๋ ๋ฉ๋ชจ๋ฆฌ(~98GB) ๊ธฐ๋ฐ ์ ๋ฒํ ๋ฑ์ด ํ์ํจ ์ญ์ ์คํ ์์ค! โ ์คํ ์์ค ์ปค๋ฎค๋ํฐ์ ๊ท๋ชจ์ ๋ฌธ์ํ ์ผ์ด์ค ๋ฑ์ผ๋ก ์ง์ ๊ฐ๋ฅํ ์ง ํ์ธ ํ์ ์ง์ ํ๋ ๊ฒ์ด ์ข๋ค.
42.
References 1. ๊น๋ณ๊ณค(2013), ๋ฐ์ดํฐ๋ฅผ ์ค์๊ฐ์ผ๋ก
๋ชจ์์ ์ฒ๋ฆฌํ๋ ๋ค์ํ ๊ธฐ๋ฒ โ http://www.youtube.com/watch?v=HmVegCGWbsU โ http://readme.skplanet.com/?p=4605 2. ๊ถ๋ํ(2013), Hadoop์์์ ์ค์๊ฐ SQL ์ง์: Impala โ 3. http://helloworld.naver.com/helloworld/246342 ๊น์ฐ์น(2012), ์ค์๊ฐ ๋น ๋ฐ์ดํฐ(Real-time Big Data) ํ๋ก์ธ์ฑ ๋ง๋ณด๊ธฐ โ 4. http://kimws.wordpress.com/2012/03/07/%EC%8B%A4%EC%8B%9C%EA%B0%84 -%EB%B9%85-%EB%8D%B0%EC%9D%B4%ED%84%B0real-time-big-data/ ํํธ์ง(2012), Storm๊ณผ Esper๋ก ์ค์๊ฐ ๋ถ์ ์ํ ์ฌ์ฉ๊ธฐ โ 5. http://mimul.com/pebble/default/2012/03/14/1331718971671.html ์ฌํ๊ธธ(2012), ์ค์๊ฐ ๋์ฉ๋ ๋ฐ์ดํฐ ๋ถ์ ๊ธฐ์ ๊ณผ ์ ์ฉ ์ฌ๋ก โ http://www.ktcloudware.com/resources/platform/07.pdf
43.
Daum์๋ ๋ฐ์ดํฐ๋ ๋ง๊ณ ์ ๋ฌธ๊ฐ๋
๋ง์ต๋๋ค! http://recruit.daum.net @channyun channy@daumcorp.com
Download now