Вопрос: Что-то горит в серверной комнате; как я могу быстро определить, что это такое?


На днях мы замечаем ужасный жгучий запах, выходящий из серверной комнаты. Короче говоря, это оказалось одним из модулей батарей, которые горели в блоке ИБП, но за пару часов до этого мы смогли разобраться. Основная причина, по которой мы смогли понять, что дисплей ИБП, наконец, показал, что модуль необходимо заменить.

Здесь была проблема: вся комната была заполнена запахом. Выполнение теста нюха было очень сложным, потому что запах проник в все (не говоря уже о том, что это заставило нас загореться). Мы почти ошибочно забрали сервер нашей производственной базы данных, потому что именно там запах был самым сильным. Кажется, что жизненные силы были в порядке (температуры процессора показали 60 градусов C, а скорость вращения вентиляторов нормально), но мы не были уверены. Так получилось, что аккумуляторный модуль, который сгорел, был примерно такой же высоты, как и сервер на стойке и всего в 3 футах. Если бы это была настоящая чрезвычайная ситуация, мы бы потерпели неудачу.

Реально, вероятность того, что фактическое серверное оборудование сгорит, является довольно редким случаем, и большую часть времени мы будем рассматривать ИБП виновника. Но с несколькими стойками с несколькими предметами оборудования он может быстро стать гадательной игрой. Как быстро и точно определить, какая часть оборудования действительно горит? Я понимаю, что этот вопрос сильно зависит от переменных окружения, таких как размер помещения, вентиляция, местоположение и т. Д., Но любой ввод будет оценен.


446
2018-04-04 14:22


Источник


@DeerHunter Хорошо, спасибо, что это было в конце дня, и в здании было очень мало людей. Благодарим вас за конструктивную критику, и я обязательно позволю своему руководителю узнать, в каких жизнях она рискует, решив сохранить систему. - Chad Harrison
@hydroparadise - у кого-то должно хватить смелости сказать "СТОП Мы не делаем это правильно ». Если ваш руководитель не понимает правил безопасности, на самом деле не так много того, что можно сделать, за исключением роста позвоночника и не поклонения стремлению срезать углы. - Deer Hunter
@DeerHunter: Каким будет соответствующий ответ, когда вы почувствуете что-то горящее? Там нет видимого дыма, просто сожженный запах. Вы отключите весь центр обработки данных, выпустите его на несколько часов, затем включите серверы один за другим, пока запах не вернется? В небольшом 25-битном центре обработки данных может быть проверено 1000 серверов, это очень простое время для «запаха» - ОП не сообщал о видимом дыме или пожаре. - Johnny
@Johnny - Цитируя OP: «вся комната была заполнена запахом. Выполнение теста нюха было очень сложным, потому что запах проник в все (не говоря уже о том, что это заставило нас загореться)« Отвечая на ваш вопрос - да, вы должны выпустить комнату и устранить неисправность систематически, Все остальное безответственно. - Deer Hunter
Итак, критикуют ли ПП от запаха, предполагая, что нет никакой разницы в срочности между запахом и огнем / дымом? Если вы чувствуете что-то горящее в своем доме, но не видите дыма и не слышите тревоги, вы бросаете вас и свою семью из дома и звоните 911? - trpt4him


Ответы:


По общему мнению, ответ на ваш вопрос состоит из двух частей:

Как мы находим источник смешного горящего запаха?

У вас есть «Как» довольно хорошо прибиты:

  • «Тест с шумом»
  • Ищите видимый дым / дымку
  • Пройдите комнату с тепловой (ИК) камерой, чтобы найти горячие точки
  • Проверьте панели мониторинга и устройства на наличие предупреждений

Вы можете улучшить свои шансы быстро найти проблему по-разному - улучшенный мониторинг часто бывает самым простым. Некоторые вопросы:

  • Получаете ли вы температуру и другие предупреждения о состоянии здоровья от вашего оборудования?
  • Сообщают ли ваши ИБП об ошибках в вашей системе мониторинга?
  • Получаете ли вы ток-сигналы от вашего оборудования распределения электроэнергии?
  • Являются ли датчики дыма в помещении, сообщающие в систему мониторинга? (а также они могут?)

Когда мы должны устранить проблему с ударом Big Red Switch?

Это более интересный вопрос.
Удар по большому красному переключателю может стоить вашей компании огромной суммы денег в спешке: выбросы чистых агентов могут составлять десятки тысяч долларов, а затраты на отключение / восстановление после аварийного отключения (EPO, «падение комнаты», ) может быть разрушительным.
Вы не хотите бросать центр данных, потому что конденсатор в электропитании выскочил и сделал запах комнаты.

И наоборот, пожар в серверной комнате может стоить вашей компании данные / оборудование и, что более важно, жизнь вашего персонала.
Устранение неполадок «этот забавный запах горения» никогда не должен иметь приоритет над безопасностью, поэтому важно иметь некоторые четкие правила об устранении неполадок «предварительных условий».

Ниже приводятся следующие руководящие принципы: мои личные ограничения что я применяю в отсутствие (или в дополнение) к любой другой четко определенной процедуре / правилам - они хорошо меня обслужили, и они могут помочь вам, но они могут так же легко заставить меня убить или уволить завтра, поэтому примените их к своему собственный риск.

  1. Если вы видите дым или огонь, оставьте комнату
    Это должно иметь место, но, скажем так, в любом случае: если есть активный огонь (или дым, указывающий, что скоро будет), вы эвакуируете комнату, отключите питание и разрядите систему пожаротушения.
    Исключения могут существовать (проявлять здравый смысл), но это почти всегда правильное действие.

  2. Если вы пытаетесь устранить неполадки, всегда включайте хотя бы одного другого человека
    Это по двум причинам. Во-первых, вы не хотите, чтобы блуждали в центре данных, и вдруг у вас в стойке поднялась стойка, и никто не знает, что вы там. Во-вторых, другой человек - это ваша проверка здравомыслия по устранению неполадок и отбрасыванию комнаты, и если вы сделаете звонок, чтобы попасть в «Большой красный коммутатор», у вас есть преимущество в том, что второй человек согласен с решением (помогает избежать аспектов, ограничивающих карьеру такого решения, если кто-то задаст его позже).

  3. Осуществлять осмотрительные меры безопасности при устранении неполадок
    Убедитесь, что у вас всегда есть путь выхода (открытый конец строки и четкий путь к выходу).
    Держите кого-то, кто находится в выпуске EPO / пожаротушения.
    Возьмите с собой огнетушитель (пожалуйста, галог или другой чистящий агент).
    Помните правило № 1 выше.
    В случае сомнений, покинуть комнату, Позаботьтесь о своем дыхании: используйте респиратор или кислородную маску. Это может спасти ваше здоровье в случае химического пожара.

  4. Установите предел и придерживайтесь его
    Точнее, установить два ограничения:

    • Состояние («Насколько я могу это позволить?»), И
    • Время («Как долго я буду продолжать пытаться найти проблему до слишком рискованной?»).

    Установленные вами пределы также могут использоваться, чтобы ваша команда начала упорядоченное закрытие затронутой области, поэтому, когда вы ДЕЛАТЬ вы не сбиваете кучу активных машин, и время восстановления будет намного короче, но помните, что если упорядоченное выключение занимает слишком много времени, вам может потребоваться несколько сбоев системы во имя безопасности.

  5. Доверяйте своей кишке
    Если вы беспокоитесь о безопасности в любое время, вызовите устранение неполадок и очистите помещение.
    Вы можете или не можете отказаться от комнаты, исходя из чувства кишки, но перегруппировка вне помещения в (относительной) безопасности разумна.

Если не существует непосредственной опасности, вы можете принять участие в местном пожарном отделе, прежде чем предпринимать какие-либо решительные действия, такие как выпуск EPO или чистых агентов. (Они могут сказать вам сделать это в любом случае: их мандат заключается в защите людей, а затем собственности, но они, очевидно, эксперты в борьбе с пожарами, поэтому вы должны делать то, что они говорят!)

Мы обратились к этому в комментариях, но он также может быть обобщен в ответе тоже - @DeerHunter, @Chris, @Sirex и многие другие способствовали обсуждению


378
2018-04-04 14:29



Университет Я пошел на установку нового дата-центра. Они внедрили очень сложную систему EPO / Fire Suppression. Оборудование, которое оно защищало, составляло миллионы долларов, и оно также использовалось для миллионов долларов исследований для медицинской части школы. Очевидно, если бы это было необходимо, красная кнопка попала бы, но, если сказать, если красная кнопка был хит, просто его сброс был близок к 200 000 долларов США. Доллары налогоплательщика вы можете с уверенностью сказать, что если бы переключатель был поражен, когда он не был нужен, у парня, который ударил его, больше не было бы работы. - Ryan
+1 для системы друзей. Я думаю, что это немного орехи, что там есть DC, которые используют EPO, чтобы также сбрасывать подавление огня. Есть много ситуаций, когда вы захотите сделать EPO, не желая сбросить галотрон по всему парню, который получает электрошок. ЕПВ является серьезной сделкой, но не является «уничтожить все в обычной сделке DC» или, по крайней мере, не должно быть. Ребята из DC должны надеяться, что большая красная кнопка и система подавления огня достаточно сильны, чтобы взвесить эффект нажатия кнопки. ЕПВ может фактически стоп пожар и сохранение DC, например. - chris
Важное замечание, о котором я не упоминал, состоит в том, что большинство времени, когда что-то не удается, чтобы выделять горящий запах, то, что горит, будет гасить себя перед обнаружением запаха и не сжигая ничего за пределами неисправного оборудования. Иногда часть оборудования будет продолжать тлеть, если она имеет силу, но если вы видите дым, должно быть возможно идентифицировать оборудование, вырезать его только для этого и посмотреть, скоро ли дышит или будет постоянно ухудшаться дым. - supercat
@ryan: Если ударить большую красную кнопку стоит так много долларов налогоплательщиков, ответственное лицо, надеюсь, разработало план по разрешению мелких инцидентов с местным пожарным департаментом, который не связан с угрожающими сотрудниками. - Christoph
@ryan Это напоминает мне отчет о телевидении о ЦЕРНе, который я видел недавно: команда камеры и репортер были взяты действительно в кишки системы, и в один момент один из парней камеры почти протаранил красную кнопку аварийного выключения с его рюкзаком - давая близкие сердечные приступы персоналу, думающему о расходах на перезагрузку ... - Hagen von Eitzen


Камера с тепловизионной камерой могла бы выполнить эту работу и позволить вам определить, где находится перегрев. Подобное устройство позволит вам идентифицировать происхождение пожара или горения в комнате, заполненной дымом.


181
2018-04-05 04:59



В настоящее время тепловые камеры проходят под грандиозным делом, и если вы работаете с большой серверной комнатой, это инструмент, который стоит того. - rackandboneman
T.I.C. не так дорого и очень полезно в центре обработки данных или большой серверной комнате. Не только в случае таких проблем, как перегретые кабели или оборудование, но и как профилактическое или раннее обнаружение проблемы, оптимизация охлаждения, поток воздуха и т. Д. - ddalcero
Лазерный пистолет температуры, например вот этот, является дешевой альтернативой - MichaelHouse
@mfinni Электрики также часто имеют тепловизионные камеры. (Тестирование тепловизора наших распределительных щитов каждый год или после любых крупных работ по электромонтажу было стандартным, когда я работал в хостинговой компании). - voretaq7
Термальная камера имеет очень большие ограничения: 1. Поле зрения может препятствовать использованию 2. Ваша среда может быть очень плотной. [Большие пожары будут замечены, но не маленькие) 3. Для определения порога потребуется усреднение температур - monksy


Вы ничего не делаете что было сказано. Вы покидаете опасную среду, потому что все, что накачивается во всей комнате, опасно для вашего здоровья и может действительно испортить ваши легкие. Если в комнате есть какой-то едкий запах, который вы не можете найти, позвоните (911 | 112 | 999 | какой номер экстренной службы соответствует вашей юрисдикции), и пусть пожар (бригада отдела компании) разобратся, пока они «на бутылочном воздухе.

Компьютерные части содержат всевозможные интересные химикаты, включая Меркурий, кадмий, вести, и много пластмасс в оболочках. Обратите внимание, что все ссылки, которые я приводил, объясняют, как воздействие низкого уровня может нанести длительный урон или даже быструю смерть. Это среда, которая может быть немедленно опасный для жизни и здоровья,

... так что, если что-то горит, не трать часы, обнюхивая пары. Если вы не можете идентифицировать его и немедленно действовать, чтобы сдержать его, выйдите.


135
2018-04-04 14:27



Следует добавить, что если это произошло в «реальном» датацентре с датчиками дыма, интегрированными с системой кондиционирования воздуха и системой пожаротушения, то пожарная сигнализация исчезла бы, и помещение было бы запечатано и затоплено аргоном или CO2 автоматически, поэтому не было даже мысли о том, чтобы бегать и обнюхивать оборудование. - the-wabbit
@ syneticon-dj Это зависит от тип установленных детекторов. Ионные детекторы могли отключить подавление огня, но я работал (и в настоящее время размещаю оборудование в местах, где есть оптические дымовые извещатели). Те, кому требуется видимый дым (или, по крайней мере, хорошая дымка), перед поездкой. - voretaq7
Хотелось бы, чтобы я мог продвигать это больше. рискуя быть спорным, «получить профессиональный» пожарный - единственный путь вперед. - Iain
Да, как бывший пожарный, я не остался бы там без моего снаряжения. Даже когда огонь погас, мы обучаемся оставаться упакованными из-за ядовитых газов. Если бы я позвонил профессионалам, вам тоже нужно! - Jeff Ferland
@ Майкл, дизайн, который я видел, не полагался на потолочные детекторы дыма, но имел фотоэлектрические детекторы в потоке обратного потока. Единственный раз, когда я видел его срабатывание, было во время процедуры тестирования, когда аргонитовая система была отсоединена, а источник дыма был помещен в один из шкафов. Он работал так, как я ожидал, что он сработает. К счастью, мне никогда не приходилось иметь дело с настоящими огнями. - the-wabbit


Если у вас был надлежащий мониторинг на ИБП (обычно через SNMP), само устройство должно было запустить колокола в вашей системе мониторинга. Если это не так, поговорите со своим продавцом об этом. Он либо неисправен, либо ваша система мониторинга настроена неправильно.

Если что-то активное на самом деле горит, оно должно жаловаться на него каким-то образом или просто отключиться от сети, что также должно вызвать тревогу.

Если это что-то вроде фактического силового рельса, сжигающего изоляцию, и это не на умном PDU, тогда мы вернемся к вашему первоначальному вопросу, который «как мне найти горящую вещь?». И я думаю, что правильный ответ: «Поразите EPO и выясните, что ваши серверы производства, вероятно, не настолько важны, чтобы рисковать жизнью».


76
2018-04-05 10:49



Что означает ЭПО? - Midhat
Аварийное отключение питания ... большая красная кнопка, которая отключает всю мощность. В основном, когда он горит. - Grant
Выразительный +1, проголосовал бы +1000. Нажмите кнопку, эвакуируйте, ждите, разбирайте вещи позже. Ведение бизнеса, как обычно, с огнем и дымом (и попытка устранить что-либо) - одна из худших ошибок, которые может сделать инженер. - Deer Hunter
@chris Я должен уважительно не соглашаться на «EPO, Leave, Wait». Активация выпуска EPO и / или чистого агента для комнаты, полной производственного оборудования, может очень часто быть тем, что мы хотели бы назвать Ограничение карьеры, Если нет активный, видимый огонь или следы дыма, поступающие с какого-либо оборудования, выполняющего какое-то первоначальное исследование, обычно являются правильной вещью. Конечно, вы должны быть абсолютно готовы к тому, чтобы забраться в комнату, когда вы нажимаете соответствующие красные кнопки в любой момент вашего расследования. - voretaq7
Вероятно, даже идеальная система мониторинга не поймала бы это до того момента, пока панель ИБП не сообщит «Заменить модуль», - что, как говорят, вы, конечно, хотите, чтобы ваша система мониторинга доводила до вас такие вещи. В следующий раз, когда модуль может потерпеть неудачу в 19:30 в пятницу, когда никто не будет вокруг, и предупреждение о мониторинге заставит вас вернуться и решить проблему до того, как она превратится в полноценную чрезвычайную ситуацию. Если вы можете связать мониторинг с вашим FACP, ваши датчики дыма и / или тепла могут даже предупредить вас об утечке изоляции с рельсов питания и тому подобное. - voretaq7


Это одна из тех ситуаций, когда

XKCD Die Hard sysadmin

не применяется, вы должны позвонить специалисту

Firefighter in protective gear

Все остальное просто глупо.


43
2018-04-05 12:50



это, безусловно, лучший ответ. :) - Citizen
@Navin Нет вы не ребята в пожарной части делают это. - Iain


Как человек, чья прежняя карьера была как электронная технология, у меня есть опыт с «горящими запахами», которые не были огнем. Это не редкость.

Я бы не закрыл центр обработки данных для запаха. Дым - другое дело, что-то действительно горит (обычно, но танталовый конденсатор размером с горошину может заполнять комнату дымом тоже). Удивительно, насколько запах может создать жареный компонент в блоке питания.

Термометр TIC или IR (полезный инструмент и намного дешевле, чем TIC) не обязательно будет показывать его, поскольку компонент не генерирует много тепла вообще, и он находится внутри корпуса. Но проверьте, не работают ли устройства, используйте инструменты мониторинга. Для такого запаха, тогда 95% времени это будет источник питания, влияющий на производительность всего устройства.


40



+1, разнесенные источники питания являются общими. В большинстве датацентров с высокими скоростями потока воздуха дым быстро сдувается, и трудно найти источник запаха. В маленькой комнате, однако, запах может быть довольно плохим и может быстро распространиться по всей комнате. - Stefan Lasiewski


Мне нравятся ответы на ИК-изображение или термометр, но, возможно, это также поможет реальному «детектору запаха». В конце концов, что вызвало вашу осторожность, был запах. Дым, тепло, ИК и т. Д. - все суррогаты.

Что-то вроде этого: from Shinyei , Я лично никогда их не использовал или даже видел, как они использовались в центре данных. Но, по крайней мере, теоретически это должен быть аккуратный инструмент. Если у вас есть деньги, потраченные на эту штуковину.

http://www.sca-shinyei.com/odormeter или http://www.intopsys.com/products/cyranose.html?gclid=CNXXzOrLs7YCFUws6wodViYApQ

Это дает вам запах, а также классификация. Таким образом, находка на запах должна быть возможной. Конечно, Дьявол в деталях. Насколько он чувствителен, маскируя запах фона и т. Д.

Одно преимущество перед измерениями, основанными на температуре, заключается в том, что часто запах возникает в гораздо более ранней точке или пороге. Или, если перегретый компонент скрыт теле / ​​скрытой проводкой и т. Д., Легче обнаружить молекулы, выходящие, чем прямая видимая точка.

Другая ситуация - запах, не связанный с теплом. У нас была утечка контура охлаждения, и запахи охлаждающей жидкости были особенными. Я даже не пойду в древний случай грызуна, мертвого в протоках. :)

Я был удивлен, насколько чувствительны эти датчики. Очевидно, что H2S / меркаптаны и т. Д. (Обычные преступники) обнаруживаются на уровнях субчастиц.

enter image description here


19