Вопрос: Оценка ущерба оборудования после удара молнии - Должен ли я планировать больше?


На прошлой неделе один из сайтов моего клиента получил прямой удар молнии (случайно Пятница, 13-е!).

Я был удален от места, но, работая с кем-то на месте, я обнаружил странную картину повреждения. Обе интернет-ссылки были недоступны, большинство серверов были недоступны. Большая часть ущерба произошла в MDF, но один связанный с волокном IDF также потерял 90% портов на члене стека коммутатора. Достаточно запасных портов коммутатора было доступно для перераспределения кабелей в другом месте и перепрограммирования, но было время простоя, в то время как мы преследовали поврежденные устройства.

Это было новое здание / складское помещение, и много планирования входило в дизайн серверной комнаты. Главная серверная комната отключена от APC SmartUPS RT 8000VA онлайн-UPS с двойным преобразованием, поддерживаемый генератором. Было обеспечено надлежащее распределение мощности для всего подключенного оборудования. Репликация на удаленном сервере и резервное копирование систем были на месте.

В целом, ущерб (который я знаю) был:

  • Ошибка 48-портовой линейной карты на Переключатель шасси Cisco 4507R-E,
  • Сбой коммутатора Cisco 2960 в стеке из 4 элементов. (oops ... свободный кабель для укладки)
  • Несколько flaky портов на коммутаторе Cisco 2960.
  • Материнская плата HP ProLiant DL360 G7 и блок питания.
  • Elfiq WAN.
  • Один факс-модем Multitech.
  • WiMax / фиксированная беспроводная интернет-антенна и силовой инжектор.
  • Многочисленные устройства с поддержкой PoE (телефоны VoIP, точки доступа Cisco Aironet, камеры IP-безопасности)

Большинство проблем были связаны с потерей всего коммутатора в Cisco 4507R-E. Это содержало некоторые из сетей VMware NFS и восходящую связь с брандмауэром сайта. Хост VMWare завершился неудачно, но HA позаботилась о том, что сетевые подключения хранилища данных были восстановлены. Я был вынужден перезагружать / приводить в действие ряд устройств, чтобы очистить фанковые состояния питания. Так что времени на выздоровление было мало, но мне интересно, какие уроки следует извлечь ...

  • Какие дополнительные меры защиты должны быть реализованы для защиты оборудования в будущем?
  • Как мне подходить к гарантии и замене? Cisco и HP заменяют элементы по контракту. У дорогостоящего балансировочного устройства Elfiq WAN есть реклама на своем сайте что в основном сказано «слишком плохо», используйте сетевой сетевой фильтр«(похоже, они ожидают такого рода сбоев)
  • Я был в ИТ достаточно долго, чтобы столкнуться с электрическим ураганом в прошлом, но с очень ограниченным воздействием; например дешевый сетевой интерфейс ПК или уничтожение мини-коммутаторов.
  • Есть ли что-нибудь еще, что я могу сделать, чтобы обнаружить потенциально уязвимое оборудование, или мне просто нужно ждать появления нечетного поведения?
  • Было ли это всего лишь неудачей или что-то, что должно быть действительно учтено в аварийном восстановлении?

С достаточным количеством $$$ можно построить все виды избыточности в среде, но в чем разумный баланс профилактического / продуманного дизайна и эффективного использования ресурсов здесь?


55
2017-07-16 13:11


Источник


Некоторые хорошие технические ответы ниже, но, по моему опыту, ничто не сравнится с хорошим страховым полисом. Буквально, страховой полис. Конечно, это не помогает избежать проблемы, и это не мешает клиентам кричать на вас, но это помогает с заменой неисправного оборудования, которое поставщик не коснется. - Mark Henderson♦
Страхование @MarkHenderson проходит ... но прошло 6 недель, и некоторые небольшие проблемы появляются сейчас. - ewwhite


Ответы:


Несколько рабочих мест назад, один из центров обработки данных для того места, где я работал, был одним этажом под очень большой антенной. Этот большой, тонкий металлический предмет был самым высоким в этой области и был поражен молнией каждые 18 месяцев или около того. Сам датацентр был построен примерно в 1980 году, поэтому я бы не назвал его самым современным, но у них был многолетний опыт, связанный с повреждением молнией (необходимо было заменить платы последовательных коммуникаций каждый раз, который является пробным, если платы comms находятся в системе, у которой не было новых деталей, сделанных за 10 лет).

Одна вещь, которая была поднята старыми руками, состоит в том, что все это ложное течение может найти способ обойти что угодно и может распространяться на общей земле, как только оно наступит. И может пересечься от воздушных зазоров. Молния - исключительный случай, когда нормальные стандарты безопасности недостаточно хороши, чтобы предотвратить появление дуг и дойти до энергии. И у него много. Если энергии достаточно, он может выступать из сетки подвесного потолка (возможно, одна из подвесных проводов висит от петли с соединением с строительной балкой в ​​цементе) до верхней части стойки с 2 стойками, а оттуда сетевые лакомства.

Как и хакеры, вы можете только так много сделать. У ваших источников питания есть выключатели на них, которые захватывают ложные напряжения, но ваш низковольтный сетевой механизм почти никогда не делает и представляет собой общий путь для чрезвычайно энергичного тока для маршрута.


Обнаружение потенциально шелушащегося набора - это то, что я знаю, как делать в теории, но не в действительности. Вероятно, лучше всего поставить подозрительное снаряжение в зону и преднамеренно привести температуру в помещении вверх в верхний край рабочего диапазона и посмотреть, что произойдет. Запустите некоторые тесты, загрузите черт из него. Оставьте его там на пару дней. Добавленное тепловое напряжение над любым ранее существовавшим электрическим повреждением может отсеивать некоторые бомбы замедленного действия.

Это определенно сократило срок службы некоторых ваших устройств, но выяснило, какие из них сложны. Схема электропитания внутри источников питания может иметь скомпрометированные компоненты и подавать грязную энергию на сервер, что вы можете обнаружить только с помощью специализированные устройства предназначенный для тестирования источников питания.


Молниеносные удары не являются чем-то, что я рассматривал для DR за пределами постоянного тока на объекте с гигантский громоотвод на крыше, В общем, забастовка - одна из тех вещей, которые случаются так редко, что они перетасовываются под «божественным поступком» и продвигаются вперед.

Но ... теперь у тебя это было. Это показывает, что ваш объект имел правильные условия хотя бы один раз. Пришло время получить оценку того, насколько подвержены вашему объекту надлежащие условия и планируют соответственно. Если вы сейчас думаете только о воздействии молнии на ДР, я думаю, что это уместно.


22
2017-07-18 12:38



Вчера я отправился на место для оценки. Беспорядочный. Я отремонтировал переключатель шасси и проверил повреждение некоторых серверов. Есть ли вероятность, что антенна WiMax / Fixed-Wireless на крыше станет точкой входа? Все на его пути было затронуто: Antenna->PoE injector->WAN link balancer->Firewall->Dead Cisco 4507 linecard - ewwhite
Это звучит ... довольно вероятно. - mfinni
@ewwhite Это звучит очень вероятно. Урон, когда тот старый DC попал, был очень похож. - sysadmin1138♦
Я хотел бы добавить некоторую мудрость к сообщению sysadmin1138 (извините, мне еще не разрешено комментировать, не хотел, чтобы это было ответом) ... Наземные контакты на шнурах питания предназначены для безопасности людей, а не для ваших устройств. В небольших офисах; Я держу важные машины вне земли (деревянный ящик, резиновый коврик) и не заземленные разъемы / адаптеры UPS-> Wall. Я уверен, что OSHA ненавидит его, но компьютеры его любят. Это также помогает, когда приставка обесточивается и снова активируется, поскольку эти выбросы могут убить что угодно. Я был в здании, когда очень, очень большой Libert ИБП / Инвертор взорвался и должен был объяснить своим технологиям, как индуктивные шипы ( - sirmonkey


Я думал об этом вопросе, так как недавно он был отредактирован обратно в начало первой страницы.

Я свободно оговариваю, что для таких людей, как sysadmin1138, которым приходится иметь дело с установками, которые очень привлекательны для крупных ударов молнии на крыше DC, особое планирование непредвиденных обстоятельств для большой забастовки имеет смысл. Но для большинства из нас это одноразовое обстоятельство, и я думал, что ответ, более общий для остальных, может иметь некоторую ценность.

Можно представить себе все виды угрозы фильма; сценарии, которые могут определенно произойти, несомненно победят ваши бизнес-операции, если они это сделают, но нет оснований полагать, что есть какая-либо повышенная вероятность того, что это произойдет. Вы знаете что-то такое; удар / удар молнии / нефтяное депо рядом взрывается / любой другой сценарий правдоподобия, но-фонового риска.

Каждый из них имеет конкретный план смягчения, который можно было бы ввести в действие, но я бы предположил, что - по модулю моего положения выше - это не имеет смысла для этого, Как Шнайер пытается указать на вышеупомянутое соревнование, просто потому, что вы можете себе представить, что что-то ужасное происходит, не создает угрозы для того, какое конкретное планирование стоит или даже желательно. Какие делает сделать хороший бизнес-смысл - универсальный, хорошо документированный, проверенный план непрерывности бизнеса.

Вы должны спросить себя, какие бизнес-расходы имеют полную потерю сайта в течение различных периодов времени (например, 24 часа, 96 часов, одна неделя, один месяц) и пытаются количественно оценить вероятность каждого события. Это должен быть честный анализ бизнес-стоимости, купленный на всех уровнях бизнеса. Я работал на сайте, где общепринятая цифра для простоя составляла 5,5 млн. Фунтов стерлингов в час (и это было 20 лет назад, когда пять миллионов фунтов было очень много); достигнув этой общей цели очень много решения так много проще, потому что они просто стали вопросом простой математики.

Ваш бюджет - это прогнозируемая потеря, умноженная на годовую вероятность этой потери; теперь посмотрите, что вы можете сделать, чтобы уменьшить эту угрозу для бюджета.

В некоторых случаях это будет работать с полным резервным дата-центром, с холодным оборудованием, готовым к работе 24x7. Это может означать небольшой резервный центр обработки данных, так что взаимодействие с заказчиком может продолжаться с очень небольшим количеством телефонных операторов, а сайт-сайт-заполнитель предупреждает о сбоях. Это может означать второе, избыточно-маршрутизированное подключение к Интернету на вашем основном сайте, холодное до тех пор, пока оно не понадобится. Это может означать, как отмечает Марк Хендерсон, страхование (но страхование, которое покрывает потери бизнеса, а также фактические издержки восстановления); если вы можете потратить бюджет BC на один лист бумаги, который будет покрывать все ваши ожидаемые затраты в случае бедствия, может иметь смысл купить этот лист бумаги - но не забудьте фактор сбой андеррайтера в ваш бизнес-план риска. Это может означать модернизацию контрактов на техническое обслуживание определенного основного оборудования до чрезвычайно дорогостоящих четырехчасовых исправлений. Только вы можете знать, что имеет смысл для вашего бизнеса.

И как только у вас будет этот план, вам действительно нужно проверить его (за исключением, возможно, страховых). Я работал на сайте, где у нас был полный мелкомасштабный холодный сайт, готовый к переезду, в 45 минутах езды от нашего основного объекта. Когда у нас возникла проблема, которая закрыла основную сеть, мы закончили тем, что пытались ее исправить, вместо того чтобы перерезать ее на холодный сайт и тогда фиксации сердечника и резания. Одной из причин неудачи в разрезе было то, что мы не имели бы реального представления о том, сколько времени потребуется, чтобы сократить и сократить. Поэтому никто не знал, как долго можно разрешить бежать без переделки, прежде чем принять решение обрезать, поэтому - вполне понятно - было сдержанно решено перерезать. Главы катились после того, как мы вернулись в интернет, спустя 14 часов; не из-за отключения как таковой, а потому, что много денег было потрачено на объект, чтобы смягчить перерыв в день-плюс, который не использовался во время такого перерыва.

В качестве конечного пункта обратите внимание, что внешние компоненты вашего бизнес-плана не гарантированно работает. Ваше высшее руководство может сидеть там, думая "если мы поместим серверы в облако, они всегда будут там, и мы можем запустить системных администраторов". Не так. Облака могут терпеть неудачу, как и все остальное; если вы передали сторонним поставщикам критически важные компоненты, все, что вы сделали, это удалить вашу способность оценивать вероятность отказа этих компонентов. SLA все очень хорошо, но если они не подкреплены существенными штрафами за неисполнение, они бессмысленны - почему ваш провайдер тратит дополнительные деньги на то, чтобы оставаться в наличии, если бы они могли просто надуть деньги и вернуть вам плату за обслуживание на период недоступность? Чтобы быть надежным, ваши SLA должны прийти с санкциями, которые приближают затраты к вашему бизнесу в случае сбоя. Да, это значительно увеличит затраты на аутсорсинг; и да, этого вполне можно ожидать.


7
2017-12-22 09:49



Я должен добавить ... этот сайт был поражен молнией три раза начиная с оригинальной публикации. Причина была связана с недостаточным / несуществующим электрическим заземлением в нескольких областях объекта. Мы подали в суд на подрядчиков, и страховка позаботилась о большинстве замен. - ewwhite
Извините, esthite, мое вступительное условие должно было более четко применяться к вам; в местах, где Любые риск выше, я имею в виду, по крайней мере, рассмотреть вопрос о смягчении последствий, конкретно направленном на этот риск, Мой ответ был больше для всех остальных, кто мог бы прочитать ваш вопрос и начать думать "ну, у меня тоже нет плана молнии; возможно, я должен». - MadHatter


Это всегда сводится к тому, сколько вы хотите потратить. У меня недостаточно глубоких знаний, чтобы подробно рассказать об этом, но я был в большом фармацевтическом центре данных, который ударил молнией и продул то, что должно было быть многократно избыточным разрядником (и было спроектировано правильно , но был реализован неправильно, поэтому что-то получилось.)

Каков максимальный всплеск, который мог предотвратить ваш ИБП? Он должен иметь рейтинг. Видимо, забастовка была достаточно прямая, чтобы превысить это, или что-то просочилось вокруг ИБП, как плохая земля. Итак, возможно, вы просмотрите свой дизайн мощности, определите, насколько вероятен другой удар, сравните стоимость простоя X вероятность и исправление, и, возможно, у электрика дать объекту хороший обзор, чтобы убедиться, что все обосновано правильно - и некоторые быстрое чтение показывает, что заземление для безопасности / кода не так интенсивно, как заземление для предотвращения повреждения от молнии.


6
2017-07-16 13:38



ИБП выглядит нормально. Были проблемы в нескольких частях здания, но основные Технические характеристики ИБП состояние "Полнофункциональная многополюсная фильтрация шума: 0,3% пропуска IEEE-импульса: нулевое время отклика: соответствует UL 1449" - ewwhite
Окей, звучит хорошо. Тогда он, вероятно, проскользнет через другие средства, если ваш источник питания прочный. - mfinni