Работа с данными выделилась в отдельную область разработки. Гига-, тера-, петабайты информации поражают воображение и озадачивают, когда дело доходит до тестирования. Hadoop, Spark, ETL - непонятные слова, к которым непонятно, как подступиться. На основе своего опыта разработки wordpress.com Игорь поделится опытом обеспечения качества в области больших данных. В рамках его доклада вы узнаете, как традиционные подходы к тестированию и автоматизации тестирования соотносятся с Big Data-решениями, а также, какие специфические проблемы требуется решать, когда дело доходит до QA.
Презентация подготовлена по материалам выступления Игоря Хрола на витебской конференции “Developer's Software Conference” (30.11.2019).
6. Data Source
1. Базы данных (Postres, MySQL, Oracle…)
2. Внешние REST (и не только) API
3. Всякие очереди сообщений (Kafka, RabbitMQ…)
4. Просто файлы (csv, txt…)
5. Всё что угодно
19. Чем хорош Gherkin в данном случае?
- Поддержка таблиц
- Играет роль документации
- Низкий порог входа
- Не возникает проблемы словаря
Не путать с BDD!
20. Интеграционные тесты
- Поиск циклов в графе трансформаций
- Проверка конфликтов версий
- Инфраструктурные проблемы
Окружение для запуска:
- Пустые/случайные данные
- Запуск на репрезентативной выборке
- Прогон на всех данных
32. Количество файлов в HDFS
The default size of a block in HDFS is 128 MB (Hadoop 2.x)
and 64 MB (Hadoop 1.x) which is much larger as compared
to the Linux system where the block size is 4KB.