Monitoring
Материал из OpenWiki
Заметки по организации мониторинга
- Слежение за возникновением проблем
- Попытки автономно решить проблему
- Оперативное сообщение о возникновении проблемы.
- Сохранение информации о факте проблемы и дампа состояния системы в момент проблемы.
- Визуализация текущего состояния.
- Визуализация динамики изменения состояния (наглядное представление на графиках):
- Мониторинг инфраструктуры (группы серверов и оборудования)
- Карта сети, в которой отображено состояние точек и связей
- Удаленный мониторинг
- Достижимость ресурса
- Работоспособность сервисов ресурса
- Локальный мониторинг
- Контроль наличия запущенных процессов
- Контроль за состоянием процессов (число процессов, расход ресурсов CPU, ОЗУ)
- Контроль за состоянием сетевых соединений (определение флуда)
- Контроль расхода дискового пространства.
- Периодическая оценка логов на предмет наличия фатальных или предупреждающих сообщений.
- Контроль общего состояния системы, нагрузки, расхода памяти, сетевого трафика и т.д.