Вопрос: Nagios «CRITICAL - Тайм-аут сокета через 10 секунд» с обслуживанием и хостом


возникла небольшая проблема с системой Nagios, которую мы используем в нашем офисе, которая только недавно начала появляться.

то, что я хотел бы знать на самом деле, является лучшим решением для решения этой проблемы, поскольку я сделал немного чтения на нем, и, похоже, есть много разных способов его решения.

в основном в случайных точках в течение дня и на случайных хостах / службах мы получим критическое предупреждение, помеченное, что что-то не ведет себя так, как должно быть, когда мы исследуем 9 раз из 10, мы заканчиваем тем, что это сообщение об ошибке.

"SERVICE ALERT: SERVERNAME ;NSClient++ Version;CRITICAL;SOFT;1;CRITICAL - Socket timeout after 10 seconds"

показывая, что служба или хост имеет время ожидания, где я могу настроить таймауты, чтобы это остановилось? ive читает, что некоторые из расписаний подключаемых модулей составляют всего 10 секунд ...

благодаря Kris


6
2018-05-05 09:42


Источник




Ответы:


Как правило, с любой услугой вы будете получать их иногда, если сервер слишком занят, чтобы отвечать, hickup в сети и т. Д. Вы можете попытаться выяснить, находится ли сервер под нагрузкой, когда вы получаете эти предупреждения.

Я думаю, что главное, на что вы хотите посмотреть, это max_check_attempts директива, связанная с сервисом или шаблоном службы, чтобы вы не получали предупреждение до тех пор, пока проверка не прошла в состояние отказа / критического состояния несколько раз подряд. Вы также можете настроить значение таймаута для check_nt плагин с -t переключатель:

-t, --timeout=INTEGER
   Seconds before connection attempt times out (default: 10)

6
2018-05-05 11:29





Я также рекомендовал бы проверить NSClient на контролируемом хосте.


1
2018-06-24 07:54