Monitoring

Материал из OpenWiki
Перейти к: навигация, поиск

Заметки по организации мониторинга

  • Слежение за возникновением проблем
  • Попытки автономно решить проблему
  • Оперативное сообщение о возникновении проблемы.
  • Сохранение информации о факте проблемы и дампа состояния системы в момент проблемы.
  • Визуализация текущего состояния.
  • Визуализация динамики изменения состояния (наглядное представление на графиках):
  • Мониторинг инфраструктуры (группы серверов и оборудования)
    • Карта сети, в которой отображено состояние точек и связей
  • Удаленный мониторинг
    • Достижимость ресурса
    • Работоспособность сервисов ресурса
  • Локальный мониторинг
    • Контроль наличия запущенных процессов
    • Контроль за состоянием процессов (число процессов, расход ресурсов CPU, ОЗУ)
    • Контроль за состоянием сетевых соединений (определение флуда)
    • Контроль расхода дискового пространства.
    • Периодическая оценка логов на предмет наличия фатальных или предупреждающих сообщений.
    • Контроль общего состояния системы, нагрузки, расхода памяти, сетевого трафика и т.д.