О проекте
Задача: инсталлировать систему мониторинга за узлами в сети в режиме 24*7*365 с целью выявления ошибок в работе центральных узлов, а также для обеспечения принятия заблаговременных мер по обслуживанию.
Текущее состояние: в сети периодически возникают ситуации аналогичны «широковещаетльному шторму», когда многие системы отказываются работать в середине рабочего дня. Локализовать такие очаги иногда крайне тяжело, один из примеров показывает 3-летный период диагностики сбоев и неудовлетворительной работы.
Решение: установка пакета Zabbix. Как это работает:
- На конечный узел уставливается Zabbix-агент или включается служба SNMP.
- Со стороны Zabbix-сервера заводится соответствующая запись о включенном узле.
- Наблюдаемый узел непрерывно передает сведения о своем состоянии.
- Zabbix-сервер хранит историю состояния и выводит сообщения связанные с критическим или тревожным состоянием.
Условный список сведений, который получает Zabbix-сервер:
- Состояние загрузки процессора, ОЗУ, жестких дисков, сетевых портов.
- Сетевая доступность и время отклика.
- Инциденты горячей перезагрузки.
- Работу служб и программного обеспечения.
Составляющие части установки:
- Гипервизор Hyper-V на Windows Server 2016.
- Гостевая серверная операционная система Ubuntu(свободное распространение).
- Пакет LAMP(свободное распространение).
- Пакет Zabbix(свободное распространение).
Проблемы в сети, которые диагностировались после внедрения:
- Переключение на другого провайдера. Был создан график работы провайдера, после чего произошла смена на более гарантированный доступ.
- В один из подвесных шкафов установлена дополнительная вентиляция, т.к. температура коммутационных узлов достигала верхней отметки.
- Замена коммутаторов. Их работа была охарактеризована как неудовлетворительная после многочисленных сбоев в стационарном режиме работы сети.
- Активный мониторинг за системой кондиционирования в серверном помещении.
- Многочисленные сигналы про работу серверов с последующей коррекцией источника причины.
После внедрения также был скомпонован пункт мониторинга с рабочим режимом 9-18.