2. Чем занимается «СетьПроект»?
Создает и развивает ИТ-инфраструктуру
для геолого-геофизических приложений:
•обработка сейсмоданных
•интерпретация сейсмоданных
•гидродинамическое моделирование
•архивирование геолого-геофизических
данных
2
3. Как сделать сбалансированный кластер?
Производительность должна быть достаточна
(ограничена лишь лицензиями
на прикладное ПО):
•Paradigm ES 360, GeoDepth, Echos
•Schlumberger Omega
•Landmark SeisSpace/ProMAX
•CGG Geovation
Стоимость должна быть минимальна
3
5. Ключевые идеи оптимизации
Сокращение:
•простоев CPU вычислительных узлов
•паразитной загрузки CPU
•эксплуатационных расходов
5
Пример загрузки CPU вычислительного узла
в течение рабочего дня
6. Что влияет на скорость расчёта?
Процессоры — CPU и GPU
Оперативная память
Сетевая инфраструктура
Подсистема ввода-вывода
Паразитная загрузка CPU
Серверная платформа
Масштабируемость прикладного ПО
Простои узлов кластера
…
6
7. Факторы выбора CPU
Система лицензирования прикладного ПО
•по ядрам
•по сокетам
•по хостам
•по пользовательским сессиям
Масштабируемость алгоритмов прикладного ПО
Удельная стоимость Тфлопс
Удельная стоимость ядра
Ограничения по тепловыделению
Ограничения по числу хостов
…
7
15. Разгрузка CPU с помощью RDMA
Как это работает: передача из буфера в буфер
без участия процессора и операционной системы
15
16. Снижение паразитной загрузки CPU
Ключевая технология — RDMA:
•обмен данными между вычислительными
узлами (MPI)
•обмен данными с файловыми узлами
16
17. Эффективность RDMA на примере
17
Источник: http://cto.vmware.com/wp-
content/uploads/2012/09/RDMAonvSphere.pdf
18. Эффективность RDMA на примере
18
Источник: собственный тест «СетьПроекта» в интересах ООО «НПЦ Геостра»
для SLB Omega (июнь 2016)
20. Разгрузка процессоров с помощью GPU
RTM:
•CGG, Paradigm, Schlumberger
(OEM от Acceleware)
Kirchhoff:
•Schlumberger,
CGG (в разработке)
20
Полный список протестированных стандартных приложений:
http://www.nvidia.co.uk/content/EMEAI/PDF/tesla-gpu-applications/gpu-apps-
catalog-eu.pdf
21. Эффективность GPU на примере
21
Источник: http://www.nvidia.com/object/application-performance-guide.html
22. Эффективность GPU на примере
DownUnder
Geosolutions (Австралия)
•3800 сопроцессоров
Intel Xeon Phi 7120P
22
Источник:
http://www.intel.com.au/content/www/au/en/big-data/high-performance-computing-xeon-e5-dug-case-
study.html
End of life!
23. Эффективность GPU на примере
23
Источник: собственный тест «СетьПроекта» в интересах
ООО «НПЦ Геостра» для SLB Omega и NVIDIA Tesla K40 (июнь 2016)
24. Выбор оптимальной модели NVIDIA GPU
Модель Тип Объем
памяти,
ГБ
Скорость
доступа к
памяти, ГБ/с
Количество
ядер CUDA
Производи-
тельность
DP, TFLOPS
Tesla
V100 PCIE
серверная
расчетная
16 900 5120 7.0
Tesla
P100 PCIE
серверная
расчетная
16 732 3584 4.7
Tesla K80
серверная
расчетная
24 480 4992 1.9
Quadro
GP100
десктопная
профессиональная
16 717 3584 5.2
Quadro
P6000
десктопная
профессиональная
24 432 3840 0.3
GeForce
GTX-1080
десктопная
игровая
8 320 2560 0.3
24
27. Выбор оптимальной файловой системы
Параметр IBM
Spectrum
Scale
(GPFS)
Lustre
(+ ZFS)
BeeGFS Panasas
PanFS
EMC Isilon
NetApp FAS
(NFS)
Поддержка RDMA
на клиенте
Есть Есть Есть Нет Нет
Поддержка
снапшотов
Redirect-On-Write
Есть Есть
(через ZFS)
Нет Есть Есть
Прозрачная
миграция на ленты
Есть Есть
(через
GRAU PDM)
Нет Нет Нет
Коммерческая
поддержка
Есть «Есть» Есть Есть Есть
Сложность
настройки
Высокая Высокая Высокая Низкая Низкая
Производительность
Single-Thread
Умеренная Низкая Высокая Низкая Низкая
27
28. Накладные расходы в ФС на примере
28
Источник: http://wiki.lustre.org/images/b/b2/Lustre_on_ZFS-Ricardo.pdf
29. Выбор оптимальной блочной СХД
Пример требований (для Paradigm ES 360):
•пропускная способность 3 ГБ/с
на последовательных операциях ввода-вывода
•полезная ёмкость 300 ТБ
Варианты решений:
•EMC VNX 5400 — 168 дисков, 39U
•EMC UNITY 400 — 194 диска, 24U
•NetApp FAS 2620 — 132 диска, 30U
•NetApp E5600 — 69 дисков, 12U
Варианты внешних интерфейсов:
•SAS, Fibre Channel, 10GbE, Infiniband (iSER)
•Infiniband есть только в NetApp E5600!
29
33. Резервные копии в виде снапшотов
Пример:
•500 ТБ несжимаемых
сейсмоданных
Традиционные резервные копии
(ленты):
•22 привода LTO-7
окно резервного копирования
= 1 неделя
Инновационные резервные копии
(снапшоты):
•10 минут (вне зависимости от объема)
33
34. Наглядная оценка длительности РК
Исходные параметры:
•всегда нужна верификация записи
•всегда нужно писать 2 копии
•реальная скорость = 50% теоретической
Расчёт для LTO-7 (300 МБ/с):
•500 ТБ / 300 МБ/с = 1 666 666,67 секунд
= 462,96 часов = 19,29 суток
•с учётом верификации и второй копии
= 77,16 суток в теории
= 154,32 суток на практике
•чтобы уложиться в 1 неделю (7 суток)
= 22 привода
34
35. Оптимизация управления очередями
Ограничение ресурсов, выделяемых
расчетному заданию
с учётом особенностей
набора данных
и программного продукта
Параллельный запуск
нескольких расчётов
Устранение простоев
ресурсов
Консолидация
разнородных кластеров
35
37. Особенности MOAB HPC Suite
Гибкие возможности
настройки политик
управления ресурсами
и очередями
Продвинутый портал
запуска заданий
и мониторинга
Консолидация
разнородных кластеров
Контроль энергопотребления
37
38. Сеть передачи данных
Ключевая технология оптимизации — RDMA
Варианты:
•Infiniband FDR/EDR
•Ethernet 25G/40G/56G/100G
(с поддержкой RoCE)
38
39. Сеть: стоимость и производительность
Технология Infiniband
FDR
Infiniband
EDR
Omni-Path
Типичный коммутатор Mellanox
SX6036
22’350 USD
Mellanox
SB7800
26’105 USD
Intel
Edge 100
28’740 USD
Типичный сетевой адаптер Mellanox
Connect-IB
2’005 USD
Mellanox
ConnectX-4
2’025 USD
Intel
OPA 16x
1’300 USD
Полоса пропускания, Гбит/с 56 100 100
Задержка на коммутаторе, нс 200 90 110
Число портов на коммутаторе 36 36 48
Число портов на адаптере 2 2 1
Поддержка RDMA
(CPU Offload)
Есть Есть Нет
39
Источник цен: конфигуратор HPE, апрель 2017 (List Price)
40. Omni-Path – новая технология Intel
Достоинства:
•более дешевое оборудование, чем Infiniband
•на 33% больше портов в коммутаторе
Недостатки:
•нет разгрузки CPU от операций ввода-вывода
•недостаточная поддержка приложениями
•нет шлюза с Ethernet (Mellanox VPI)
40
43. Сильные стороны «СетьПроекта»
Узкая специализация в выбранной нише рынка
•ИТ-инфраструктура для разведочной и
промысловой геофизики
Знание отраслевой специфики и прикладного ПО
Знание инфраструктурных ИТ-продуктов и
технологий
Передовая методология управления проектами
Систематизированный опыт прежних проектов
Высокая инженерная культура персонала
Активное вовлечение персонала заказчика
43
44. Cлова партнеров о нас
"СетьПроект" продолжает быть одним из наших
главных технологических партнеров в России
•Михаил Ерченков, Paradigm
Благодаря таким активным, квалифицированным и
компетентным партнерам, как "СетьПроект", мы
рассчитываем существенно нарастить нашу долю на
нефтегазовом рынке
•Сергей Горбас, Lenovo/IBM
"СетьПроект" — один из наших приоритетных
партнеров в нефтегазовой отрасли
•Роман Ройфман, NetApp
44