Alertmon

Материал из OpenWiki
Перейти к: навигация, поиск

Система мониторинга Alertmon

Принципы заложенные в Alertmon: Возможность проверять работоспособность различных системных компонентов, пытаться самостоятельно автоматически решить проблему, наглядно отображать на графиках динамику изменения характеристик системы, собирать подробные логи о всех изменениях в системе.

На серверах размещается и раз в 5-10 минут из crontab запускается специальный Perl скрипт, который занимается непосредственно мониторингом данной машины. При обнаружении аномалий выполняется определенное действие, например, инициируется попытка перезапустить сервис, отправляется сообщение администратору или созхраняется более подробный слепок состояния системы. При каждом изменении состояния сохраняется подробных дамп текущего состояния (ps -aux, netstat -an и т.п.)

Отдельно создается сервер мониторинга, на котором через web-интерфейс отображаются наглядные графики с изменением состояния системы, на которых сразу брасаются в глаза все аномалии. Графики могут менять детализацию (например, неделя, день и т.п.), и представлять как сводную информацию о состоянии наиболее критических для каждой машины параметров (LA, нагрузка на БД, число процессов, трафик, свободное место на диске, размер самого большого процесса в системе и т.п. ), так и более детализированное представление для каждого типа сервисов или группы параметров.

Суммарный график


Детализация состояния процессов