2. О чём доклад?
Что такое Zabbix?
Как работает Zabbix?
Как правильно обнаруживать проблемы?
3. Что такое Zabbix?
Enterprise level Open Source monitoring solution
Чем мы отличаемся
Реальный Open Source
Всё в одном
Простота в эксплуатации
Зрелость, качество и надёжность
Гибкость
8. Как часто?
Раз в N секунд всегда
Zabbix равномерно распределяет проверки
Разная частота в разные интервалы времени
Раз в X секунд в рабочее время
Раз в Y секунд по выходным
В конкретное время
Проверки вида 'Готовы к работе!'
9. Как в этом потоке
информации
отлавливать
проблемы?
19. Гистерезис
Различные условия для входа в состояние проблемы
и выхода из неё
Было
{server:system.cpu.load.last()} > 5
Стало
({TRIGGER.VALUE}=0 and {server:system.cpu.laod.last()}>5)
or
({TRIGGER.VALUE}=1 and {server:system.cpu.load.last()}>1)
Избавились от флаппинга!
20. Несколько примеров
Система перегружена
({TRIGGER.VALUE}=0 and {server:system.cpu.load.min(5m)}>3) or
({TRIGGER.VALUE}=1 and {server:system.cpu.load.max(2m)}>1)
Не хватает свободного места на /
({TRIGGER.VALUE}=0 and {server:vfs.fs.size[/,pfree].last()}<10) or
({TRIGGER.VALUE}=1 and {server:vfs.fs.size[/,pfree].min(10m)}<30)
SSH сервер недоступен
({TRIGGER.VALUE}=0 and {server:net.tcp.service[ssh].max(#3)}=0) or
({TRIGGER.VALUE}=1 and {server:net.tcp.service[ssh].min(#10)}=0)
22. Как обнаружить
Сравниваем с нормой, где
норма = состояние системы в прошлом
Средняя загрузка процессора за последний час
превышает вдвое загрузку процессора за тот же период
неделю назад.
{server:system.cpu.load.avg(1h)} > 2 *
{server:system.cpu.load.avg(1h,7d)}
26. Эскалируем!
• Немедленная реакция
• Реакция с задержкой
• Оповещение если
автоматика не сработала
• Повторные сообщения
• Эскалация на следующий
уровень
27. Подведём итог
• Анализируем историю
• Отсутствие проблемы — не есть её решение
Используем разные условия для проблемы
и её решения
• Пытаемся работать с аномалиями
• Автоматически решаем проблемы
• Эскалируем проблемы!
28. Вопросы?
Если не успели задать вопрос или не удовлетворены
моим ответом, то:
- меня можно смело отлавливать сегодня и завтра на
конференции
- через твиттер: @avladishev
- пишите на alex@zabbix.com
Спасибо за внимание!
30. Zabbix 3.0: интерфейс
Модульность, MVC
Возможность создавать свои страницы
Возможность менять существующие страницы
Первые попытки инфраструктуры для создания
своих блоков (widgets) дашборда
35. Контекстные макросы
Сейчас: {$MACRO}
Zabbix 3.0
{$MACRO}[“context”], если не существует, то возмём
значение {$MACRO}
Пример
{$MINDISKSPACE}['/tmp'] => 50%
{$MINDISKSPACE}['/db'] => 30%
{$MINDISKSPACE} = 10%
36. А также... #1
• Выполнение проверок в определённое время
• ODBC LLD
• Фильтрация по типу памяти для proc.mem
• Поддержка дополнительных макросов для поля URL
триггера
• Улучшения в мониторинге лог файлов
• Возможно: baseline monitoring
37. А также... #2
• Поддержка IPv6 для Java gateway
• Triggers Top 100, фильтрация по: host, host group,
severity and custom time period
• Поддержка TCP для DNS проверок
• Ручной запуск хаускипера
• Обнаружение любого количества SNMP LLD значений
• Dropdowns заменены на кнопки
• Поддержка LLD макросов в единицах измерения
• Поддержка LLD макросов в IPMI сенсорах