Тестирование больших данных

Тестирование больших
данных
Data Engineer at Automattic
Igor Khrol
30 НОЯБРЯ

Тестирование
больших данных
Игорь Хрол

Игорь Хрол
Data Engineer в Automattic
Scala, Python
13 лет на службе в IT
https://khroliz.com
https://data.blog

Data Source
1. Базы данных (Postres, MySQL, Oracle…)
2. Внешние REST (и не только) API
3. Всякие очереди сообщений (Kafka, RabbitMQ…)
4. Просто файлы (csv, txt…)
5. Всё что угодно

ETL: Transformation
● Data conversion
● Aggregation
● Deduplication
● Filtering
● Data cleaning
● Formatting
● Merging/joining
● Calculating new fields
● Sorting
● Pivoting
● Lookup operations
● Data validation

Тестирование больших данных

Как же это тестируют?

Маленькие тесты
(модульные)

Тестирование трансформаций

Чем хорош Gherkin в данном случае?
- Поддержка таблиц
- Играет роль документации
- Низкий порог входа
- Не возникает проблемы словаря
Не путать с BDD!

Интеграционные тесты
- Поиск циклов в графе трансформаций
- Проверка конфликтов версий
- Инфраструктурные проблемы
Окружение для запуска:
- Пустые/случайные данные
- Запуск на репрезентативной выборке
- Прогон на всех данных

Ручное тестирование

Где взять
expected result?

Где взять
expected
result?

тесты
трансформаций
интеграционные

Мониторинг
- Работоспособность железа
- Доступность API, UI, данных
- Загрузка кластера:
- диск
- память
- CPU
- network

Мониторинг данных
- Консистентность данных:
- Внешние ключи
- Уникальные ключи
- not null
- Проверка бизнес-правил
- Использование ML-моделей

Напоследок…
Специфические вещи

Количество файлов в HDFS
The default size of a block in HDFS is 128 MB (Hadoop 2.x)
and 64 MB (Hadoop 1.x) which is much larger as compared
to the Linux system where the block size is 4KB.

Тестирование больших данных

Related slideshows

More Related Content

Тестирование больших данных