Международная научно-практическая конференция International Conference on Big Data and its Applications (ICBDA) выросла из мероприятия Big Data Russia и проводится один раз в год, объединяя на одной площадке создателей новых технологий в области больших данных, представителей бизнеса, а также научных сотрудников и молодых ученых.
Организаторы: Rusbase и Global Innovation Labs.
Организаторы ICBDA благодарят Data-Centric Alliance (DCA) за поддержку мероприятия, а также отдельное спасибо Artox Media и NVIDIA.
1 of 23
More Related Content
Андрей Созыкин — ИММ УрО РАН — ICDBA2016
1. Как сделать свой кластер
Hadoop/Spark
Андрей Созыкин
Заведующий кафедрой высокопроизводительных компьютерных технологий
Институт математики и компьютерных наук УрФУ
Заведующий отделом вычислительной техники ИММ УРО РАН
2. 2
Как сделать свой кластер Hadoop/Spark Андрей Созыкин
Архитектура кластера
Сеть Ethernet/10G Ethernet
CPU CPU
CPU CPU
CPU CPU
CPU CPU
CPU CPU
CPU CPU
CPU CPU
CPU CPU
Узел кластера Узел кластера Узел кластера Узел кластера
HDFS
3. 3
Как сделать свой кластер Hadoop/Spark Андрей Созыкин
Отличия кластера
Много пользователей
Пакетный режим работы
4. 4
Как сделать свой кластер Hadoop/Spark Андрей Созыкин
Менеджер ресурсов
Сеть Ethernet/10G Ethernet
CPU CPU
CPU CPU
CPU CPU
CPU CPU
CPU CPU
CPU CPU
CPU CPU
CPU CPU
HDFS
Очередь задач
…
5. 5
Как сделать свой кластер Hadoop/Spark Андрей Созыкин
Отличия кластера
Много пользователей
Пакетный режим работы
Менеджеры ресурсов:
• Hadoop YARN (Yet Another Resource Negotiator)
• Apache Mesos
• Встроенный менеджер ресурсов в Apache Spark
6. 6
Как сделать свой кластер Hadoop/Spark Андрей Созыкин
Что нам нужно для кластера
Менеджер ресурсов
Распределенная файловая система HDFS
Службы запуска приложений:
• Hadoop MapReduce
• Apache Spark
Дополнительные продукты из экосистем:
• Apache Hive
• Apache Pig
• Apache Zookeeper
• Spark SQL
• MLlib
7. 7
Как сделать свой кластер Hadoop/Spark Андрей Созыкин
Как устанавливать
Отдельные компоненты:
• Hadoop - hadoop.apache.org
• Spark - spark.apache.org
• Hive - hive.apache.org
• Mesos - mesos.apache.org
8. 8
Как сделать свой кластер Hadoop/Spark Андрей Созыкин
Как устанавливать
Отдельные компоненты:
• Hadoop - hadoop.apache.org
• Spark - spark.apache.org
• Hive - hive.apache.org
• Mesos - mesos.apache.org
Готовые дистрибутивы:
• Cloudera - www.cloudera.com
• Hortonworks - hortonworks.com
• MapR- www.mapr.com
9. 9
Как сделать свой кластер Hadoop/Spark Андрей Созыкин
Cloudera Distribution for Hadoop (CDH)
10. 10
Как сделать свой кластер Hadoop/Spark Андрей Созыкин
Оборудование
Серверы 1-2U
• Персональные компьютеры, ноутбуки и т.п.
Процессоры:
• Intel 4-16 ядер
• «Средний» уровень
Жесткие диски:
• 2 для ОС (зеркало)
• 2-24 для данных (JBOD)
• Желательно одинаковой емкости
Сеть Ethernet:
• 1 Гб/с – сервер с 4-8 дисками
• 10 Гб/с – сервер с 10 и более дисками
11. 11
Как сделать свой кластер Hadoop/Spark Андрей Созыкин
Перед установкой
Разрешение полных имен хостов (FQDN) на всех узлах кластера
• DNS
• /etc/hosts
Одинаковое время на всех узлах:
• ntp
12. 12
Как сделать свой кластер Hadoop/Spark Андрей Созыкин
Способы установки CDH
Автоматическая установка с помощью GUI Cloudera Manager:
• Oracle JDK
• Cloudera Manager Server и Agents
• База данных сервисов Cloudera embedded PostgreSQL
• Cloudera Distribution for Hadoop
• Сервисы на узлах кластера
• Роли узлов кластера (HDFS Name Node и Data Node, Resource Manager, Node
Manager и т.п.)
• Автоматическая настройка и конфигурирование базы данных Cloudera
• Кластеры для разработчиков и демонстрационные
Ручная установка c помощью пакетов Cloudera Manager:
• Для продуктивных кластеров
13. 13
Как сделать свой кластер Hadoop/Spark Андрей Созыкин
Установка
Установить Cloudera Manager на компьютер, который будет выполнять роль
Cloudera Manager Server:
• http://www.cloudera.com/downloads/manager
14. 14
Как сделать свой кластер Hadoop/Spark Андрей Созыкин
Cloudera Manager Console
Запуск Cloudera Manager Console
• http://cmserver-host:7180
• admin:admin
15. 15
Как сделать свой кластер Hadoop/Spark Андрей Созыкин
Установка на узлы кластера
16. 16
Как сделать свой кластер Hadoop/Spark Андрей Созыкин
Установка на узлы кластера
17. 17
Как сделать свой кластер Hadoop/Spark Андрей Созыкин
Установка на узлы кластера
18. 18
Как сделать свой кластер Hadoop/Spark Андрей Созыкин
Установка на узлы кластера
19. 19
Как сделать свой кластер Hadoop/Spark Андрей Созыкин
Мониторинг в Cloudera Manager
20. 20
Как сделать свой кластер Hadoop/Spark Андрей Созыкин
Кластер в облаке
Amazon Elastic Map Reduce
• https://aws.amazon.com/emr/
Google Cloud Dataproc
• https://cloud.google.com/dataproc/
Microsoft HDInsight
• https://azure.microsoft.com/en-us/services/hdinsight/
21. 21
Как сделать свой кластер Hadoop/Spark Андрей Созыкин
Кластер не продуктивный!
Безопасность
• Получить доступ ко всем данным в HDFS:
export HADOOP_USER_NAME=hdfs
• Решение – использовать Kerberos
Оптимизация производительности:
• Параметры ядра ОС
• Параметры файловой системы
• Параметры Hadoop/MapReduce/HDFS
Отказоустойчивость
Резервное копирование
Автоматизация администрирования:
• Chef
• Puppet
• Ansible
22. 22
Как сделать свой кластер Hadoop/Spark Андрей Созыкин
Кластер не продуктивный!
Безопасность
• Получить доступ ко всем данным в HDFS:
export HADOOP_USER_NAME=hdfs
• Решение – использовать Kerberos
Оптимизация производительности:
• Параметры ядра ОС
• Параметры файловой системы
• Параметры Hadoop/MapReduce/HDFS
Отказоустойчивость
Резервное копирование
Автоматизация администрирования:
• Chef
• Puppet
• Ansible
Первое издание – 2012
Второе издание – октябрь 2018
23. 23
Как сделать свой кластер Hadoop/Spark Андрей Созыкин
Спасибо за внимание!
Контакты
Андрей Созыкин
sozykin@gmail.com
www.asozykin.ru