Обработка спйсмоданных: возможности оптимизации ИТ-инфраструктуры

Обработка сейсмоданных:
возможности оптимизации
ИТ-инфраструктуры
Всеволод Шабад, генеральный директор
vshabad@netproject.ru (985) 765-76-03

Чем занимается «СетьПроект»?
Создает и развивает ИТ-инфраструктуру
для геолого-геофизических приложений:
•обработка сейсмоданных
•интерпретация сейсмоданных
•гидродинамическое моделирование
•архивирование геолого-геофизических
данных
2

Как сделать сбалансированный кластер?
Производительность должна быть достаточна
(ограничена лишь лицензиями
на прикладное ПО):
•Paradigm ES 360, GeoDepth, Echos
•Schlumberger Omega
•Landmark SeisSpace/ProMAX
•CGG Geovation
Стоимость должна быть минимальна
3

Загрузка компонентов кластера
30%
40%
50%
60%
70%
80%
90%
100%
Оптимальный
(лимитирует только CPU)
Неоптимальный
(ничто не лимитирует — мощности
избыточны)
Неоптимальный
(лимитирует сеть, а не CPU)
Ограничителем производительности кластера должна быть
только производительность CPU!
CPU RAM Network Local HDD Shared File System
4

Ключевые идеи оптимизации
Сокращение:
•простоев CPU вычислительных узлов
•паразитной загрузки CPU
•эксплуатационных расходов
5
Пример загрузки CPU вычислительного узла
в течение рабочего дня

Что влияет на скорость расчёта?
Процессоры — CPU и GPU
Оперативная память
Сетевая инфраструктура
Подсистема ввода-вывода
Паразитная загрузка CPU
Серверная платформа
Масштабируемость прикладного ПО
Простои узлов кластера
…
6

Факторы выбора CPU
Система лицензирования прикладного ПО
•по ядрам
•по сокетам
•по хостам
•по пользовательским сессиям
Масштабируемость алгоритмов прикладного ПО
Удельная стоимость Тфлопс
Удельная стоимость ядра
Ограничения по тепловыделению
Ограничения по числу хостов
…
7

Масштабируемость алгоритмов ПО
8
Часть списка модулей CGG Geovation 2013
(цитата из Release Notes)

Разница поколений процессоров Xeon
9
Модель E5-2690 v2 E5-2690 v3 E5-2690 v4 Xeon Gold 6142
Производительность
SPECfp2006
100 108
[+8%]
120
[+20%]
148
[+48%]
SPECint2006
62.1 64.7
[+4%]
71.4
[+15%]
77.3
[+24%]
Кол-во ядер 10 12 [+20%] 14 [+40%] 16 [+60%]
Тактовая частота, ГГц 3.0 2.6 2.6 2.6
Число команд за 1 такт 8 16
[+100%]
16 [+100%] 32
[+300%]
Число каналов памяти 4 4 4 6 [+50%]
Скорость доступа к
памяти, МТ/с
1866 2133
[+14%]
2400
[+29%]
2666
[+43%]
Удельная
стоимость,
USD
GFLOPS
8.57 4.73
[-45%]
4.44
[-48%]
3.60
[-58%]
ядро
205.70 174.17
[-15%]
149.29
[-27%]
184.50
[-10%]

Пример неоптимального выбора CPU
Семейство Broadwell-EP (E5-2600 v4) Broadwell-EP (E5-2600 v4)
Сервер HPE ProLiant XL230a Gen9
CPU 2x Xeon E5-2680 v4
(28 ядер, 2.4 ГГц)
2x Xeon E5-2699 v4
(44 ядра, 2.2 ГГц)
RAM 256 ГБ (9.2 ГБ / ядро)
PC4-2400
512 ГБ (11.7 ГБ / ядро)
PC4-2400
HDD 3x 1 ТБ SATA
Network 1x Infiniband FDR
Цена List Price, USD 16 051 30 911
Производительность, Тфлопс 0.85 1.27
Цена List Price, USD
за ядро
573.25 702.52
на 23% дороже
Цена List Price, USD
за Тфлопс
18 883.53 24 339.37
на 29% дороже
10
Типичный вычислительный узел
для Paradigm ES 360

Балансировка модулей ОЗУ по слотам
11
Источник: Maximizing System Performance with a Balanced Memory Configuration (Lenovo)

Количество модулей ОЗУ
12
Источник: Lenovo ThinkSystem SD530 Performance Considerations with 12 DIMMs and 16 DIMMs

Особенности серверной платформы
13
Пример для HPE Apollo (XL230a Gen9)
Источник: https://www.hpe.com/h20195/v2/getpdf.aspx/c04390759.pdf?ver=12

Особенности серверной платформы
14
Пример для Lenovo SD530
Источник: https://lenovopress.com/lp0635-thinksystem-sd530-server

Разгрузка CPU с помощью RDMA
Как это работает: передача из буфера в буфер
без участия процессора и операционной системы
15

Снижение паразитной загрузки CPU
Ключевая технология — RDMA:
•обмен данными между вычислительными
узлами (MPI)
•обмен данными с файловыми узлами
16

Эффективность RDMA на примере
17
Источник: http://cto.vmware.com/wp-
content/uploads/2012/09/RDMAonvSphere.pdf

Эффективность RDMA на примере
18
Источник: собственный тест «СетьПроекта» в интересах ООО «НПЦ Геостра»
для SLB Omega (июнь 2016)

Нужна поддержка RDMA приложениями!
Обработка сейсмоданных (MPI):
•Paradigm ES 360, GeoDepth, Echos
•собственная реализация MPI
•Schlumberger Omega,
Landmark SeisSpace/ProMAX,
CGG Geovation
•Intel MPI
Файловые системы:
•IBM Spectrum Scale (бывшая GPFS)
•Lustre
•BeeGFS (бывшая FhGFS)
19

Разгрузка процессоров с помощью GPU
RTM:
•CGG, Paradigm, Schlumberger
(OEM от Acceleware)
Kirchhoff:
•Schlumberger,
CGG (в разработке)
20
Полный список протестированных стандартных приложений:
http://www.nvidia.co.uk/content/EMEAI/PDF/tesla-gpu-applications/gpu-apps-
catalog-eu.pdf

Эффективность GPU на примере
21
Источник: http://www.nvidia.com/object/application-performance-guide.html

DownUnder
Geosolutions (Австралия)
•3800 сопроцессоров
Intel Xeon Phi 7120P
22
Источник:
http://www.intel.com.au/content/www/au/en/big-data/high-performance-computing-xeon-e5-dug-case-
study.html
End of life!

23
Источник: собственный тест «СетьПроекта» в интересах
ООО «НПЦ Геостра» для SLB Omega и NVIDIA Tesla K40 (июнь 2016)

Выбор оптимальной модели NVIDIA GPU
Модель Тип Объем
памяти,
ГБ
Скорость
доступа к
памяти, ГБ/с
Количество
ядер CUDA
Производи-
тельность
DP, TFLOPS
Tesla
V100 PCIE
серверная
расчетная
16 900 5120 7.0
Tesla
P100 PCIE
серверная
расчетная
16 732 3584 4.7
Tesla K80
серверная
расчетная
24 480 4992 1.9
Quadro
GP100
десктопная
профессиональная
16 717 3584 5.2
Quadro
P6000
профессиональная
24 432 3840 0.3
GeForce
GTX-1080
игровая
8 320 2560 0.3
24

Плотность компоновки GPU
Сервер DELL C4140 (1U):
•4x NVIDIA V100 = 20’480 ядер, 21.0 TFLOPS
•4x NVIDIA P100 = 14’336 ядер, 18.8 TFLOPS
Сервер DELL C4130 (1U):
•4x NVIDIA V100 = 20’480 ядер, 21.0 TFLOPS
•4x NVIDIA P100 = 14’336 ядер, 18.8 TFLOPS
•4x NVIDIA K80 = 19’968 ядер, 7.6 TFLOPS
Рабочая станция Lenovo ThinkStation P920:
•3x NVIDIA GP100 = 10’752 ядер, 15.6 TFLOPS
25

Выбор форм-фактора серверов
Стоечные серверы 1U
•например, HPE Proliant DL360 Gen10
Стоечные серверы 2U
•например, Fujitsu RX2540 M4
Высокоплотные серверы
•например, Lenovo ThinkSystem SD530
Блейд-серверы
•например, DELL M1000e
26

Выбор оптимальной файловой системы
Параметр IBM
Spectrum
Scale
(GPFS)
Lustre
(+ ZFS)
BeeGFS Panasas
PanFS
EMC Isilon
NetApp FAS
(NFS)
Поддержка RDMA
на клиенте
Есть Есть Есть Нет Нет
Поддержка
снапшотов
Redirect-On-Write
Есть Есть
(через ZFS)
Нет Есть Есть
Прозрачная
миграция на ленты
Есть Есть
(через
GRAU PDM)
Нет Нет Нет
Коммерческая
поддержка
Есть «Есть» Есть Есть Есть
Сложность
настройки
Высокая Высокая Высокая Низкая Низкая
Single-Thread
Умеренная Низкая Высокая Низкая Низкая
27

Накладные расходы в ФС на примере
28
Источник: http://wiki.lustre.org/images/b/b2/Lustre_on_ZFS-Ricardo.pdf

Выбор оптимальной блочной СХД
Пример требований (для Paradigm ES 360):
•пропускная способность 3 ГБ/с
на последовательных операциях ввода-вывода
•полезная ёмкость 300 ТБ
Варианты решений:
•EMC VNX 5400 — 168 дисков, 39U
•EMC UNITY 400 — 194 диска, 24U
•NetApp FAS 2620 — 132 диска, 30U
•NetApp E5600 — 69 дисков, 12U
Варианты внешних интерфейсов:
•SAS, Fibre Channel, 10GbE, Infiniband (iSER)
•Infiniband есть только в NetApp E5600!
29

Демпфирование пиковой нагрузки I/O
Кэширование на SSD:
•кэширование на блочном дисковом массиве
•IBM Spectrum Scale:
•Highly-available write cache (HAWC)
•Local Read-Only Cache (LROC)
•Panasas ActiveStor:
•нет
•Lustre:
•L2RC (DDN) — опыта эксплуатации нет!
•EMC Isilon:
•SmartFlash
30

Демпфирование пиковой нагрузки I/O
Tiering на SSD:
•sub-LUN tiering на блочном дисковом массиве
•IBM Spectrum Scale:
•storage pools
•Panasas ActiveStor:
•встроенные средства PanFS
•Lustre:
•PDM (GRAU) — опыта эксплуатации нет!
•EMC Isilon:
•SmartPools
31

Сравнение реализаций снапшотов
Redirect-On-Write Copy-On-Write
NetApp FAS3240 IBM Storwize v7000
Источник: собственный тест «СетьПроекта» в интересах ОАО «Новатэк» (2012)
32

Резервные копии в виде снапшотов
Пример:
•500 ТБ несжимаемых
сейсмоданных
Традиционные резервные копии
(ленты):
•22 привода LTO-7
окно резервного копирования
= 1 неделя
Инновационные резервные копии
(снапшоты):
•10 минут (вне зависимости от объема)
33

Наглядная оценка длительности РК
Исходные параметры:
•всегда нужна верификация записи
•всегда нужно писать 2 копии
•реальная скорость = 50% теоретической
Расчёт для LTO-7 (300 МБ/с):
•500 ТБ / 300 МБ/с = 1 666 666,67 секунд
= 462,96 часов = 19,29 суток
•с учётом верификации и второй копии
= 77,16 суток в теории
= 154,32 суток на практике
•чтобы уложиться в 1 неделю (7 суток)
= 22 привода
34

Оптимизация управления очередями
Ограничение ресурсов, выделяемых
расчетному заданию
с учётом особенностей
набора данных
и программного продукта
Параллельный запуск
нескольких расчётов
Устранение простоев
ресурсов
Консолидация
разнородных кластеров
35

Интеллектуальные системы управления
MOAB HPC Suite (Adaptive Computing)
Spectrum LSF (IBM)
PBS Pro (Altair PBS Works)
36

Особенности MOAB HPC Suite
Гибкие возможности
настройки политик
управления ресурсами
и очередями
Продвинутый портал
запуска заданий
и мониторинга
Консолидация
разнородных кластеров
Контроль энергопотребления
37

Сеть передачи данных
Ключевая технология оптимизации — RDMA
Варианты:
•Infiniband FDR/EDR
•Ethernet 25G/40G/56G/100G
(с поддержкой RoCE)
38

Сеть: стоимость и производительность
Технология Infiniband
FDR
Infiniband
EDR
Omni-Path
Типичный коммутатор Mellanox
SX6036
22’350 USD
Mellanox
SB7800
26’105 USD
Intel
Edge 100
28’740 USD
Типичный сетевой адаптер Mellanox
Connect-IB
2’005 USD
Mellanox
ConnectX-4
2’025 USD
Intel
OPA 16x
1’300 USD
Полоса пропускания, Гбит/с 56 100 100
Задержка на коммутаторе, нс 200 90 110
Число портов на коммутаторе 36 36 48
Число портов на адаптере 2 2 1
Поддержка RDMA
(CPU Offload)
Есть Есть Нет
39
Источник цен: конфигуратор HPE, апрель 2017 (List Price)

Omni-Path – новая технология Intel
Достоинства:
•более дешевое оборудование, чем Infiniband
•на 33% больше портов в коммутаторе
Недостатки:
•нет разгрузки CPU от операций ввода-вывода
•недостаточная поддержка приложениями
•нет шлюза с Ethernet (Mellanox VPI)
40

Расширение температурного диапазона
Повышение температуры воздуха в серверной
на 5O C позволяет снизить энергозатраты
системы охлаждения на 20% (Intel, IDC, Gartner)
41

Используемые компоненты
Серверы:
•Lenovo, HPE, DELL, Fujitsu, Huawei, Sugon,
Inspur, …
СХД:
•NetApp, IBM, HPE, HDS, Panasas, Huawei,
DELL|EMC, Fujitsu, …
Сети:
•Mellanox, Extreme, Cisco, Lenovo, Huawei, …
Ленточные библиотеки:
•IBM, HPE, Quantum
Менеджеры заданий:
•Adaptive Computing, IBM, Altair
42

Сильные стороны «СетьПроекта»
Узкая специализация в выбранной нише рынка
•ИТ-инфраструктура для разведочной и
промысловой геофизики
Знание отраслевой специфики и прикладного ПО
Знание инфраструктурных ИТ-продуктов и
технологий
Передовая методология управления проектами
Систематизированный опыт прежних проектов
Высокая инженерная культура персонала
Активное вовлечение персонала заказчика
43

Cлова партнеров о нас
"СетьПроект" продолжает быть одним из наших
главных технологических партнеров в России
•Михаил Ерченков, Paradigm
Благодаря таким активным, квалифицированным и
компетентным партнерам, как "СетьПроект", мы
рассчитываем существенно нарастить нашу долю на
нефтегазовом рынке
•Сергей Горбас, Lenovo/IBM
"СетьПроект" — один из наших приоритетных
партнеров в нефтегазовой отрасли
•Роман Ройфман, NetApp
44

Будет быстро — проверено!
http://www.netproject.ru/
45

Обработка спйсмоданных: возможности оптимизации ИТ-инфраструктуры

Related slideshows

More Related Content

Обработка спйсмоданных: возможности оптимизации ИТ-инфраструктуры