Вопрос: Вероятность отказа шасси лезвия


В моей организации мы думаем о покупке блейд-серверов - вместо серверов стойки. Конечно, поставщики технологий также делают их очень приятными. Озабоченность, которую я часто читаю на разных форумах, заключается в том, что существует теоретическая возможность падения серверного шасси - что, в результате, приведет к удалению всех лезвий. Это связано с общей инфраструктурой.

Моя реакция на эту вероятность состояла бы в том, чтобы иметь избыточность и два шасси вместо одного (очень дорогостоящее, конечно).

Некоторые люди (включая, например, HP Vendors) пытаются убедить нас в том, что шасси очень маловероятно, что это может быть неудачно из-за многих избыточности (избыточное питание и т. Д.).

Еще одна проблема на моей стороне заключается в том, что если что-то снижается, могут потребоваться запчасти - что сложно в нашем месте (Эфиопия).

Поэтому я бы попросил опытных администраторов, которые управляли блейд-сервером: Каков ваш опыт? Они идут вниз в целом - и какая разумная общая инфраструктура может потерпеть неудачу?

Этот вопрос может быть расширен для совместного хранения. Снова я бы сказал, что нам нужны две единицы хранения, а не только одна - и, опять же, продавцы говорят, что все это так здорово, что не ожидается никаких сбоев.

Ну, я с трудом могу поверить, что такая критическая инфраструктура может быть очень надежной без избыточности - но, может быть, вы можете сказать мне, есть ли у вас успешные проекты на основе blade-серверов, которые работают без избыточности в своих основных частях (шасси, хранилище ... )

На данный момент мы смотрим на HP - поскольку IBM выглядит слишком дорого.


47
2017-12-02 16:41


Источник


Отличный вопрос. Сегодня я отправлю свой ответ и некоторые сценарии реальной жизни. - ewwhite
Вы посмотрели, что Dell имеет на своих серверах C? например C6100 имеет 4 узла в корпусе 2U, что эквивалентно шасси с 4 слотами. Вместо одного шасси 10U вы можете получить пять серверов стойки 2U. Больше не одна точка отказа, но вы теряете преимущества объединительной платы. Возможно, у HP / IBM есть эквивалентный продукт. - jqa


Ответы:


Существует низкая вероятность полного отказа шасси ...

Вероятно, вы столкнетесь с проблемами на своем объекте, прежде чем полный неисправность корпуса лезвия.

Мой опыт в основном связан с HP C7000 а также HP C3000 . Я также управлял blade-решениями Dell и Supermicro. Продавец имеет значение. Но, в общем, аппаратура HP была звездной, Dell была в порядке, и Supermicro не обладал качеством, отказоустойчивостью и был просто плохо разработан. Я никогда не испытывал сбоев на стороне HP и Dell. У Supermicro были серьезные перебои в работе, заставившие нас отказаться от платформы. На HP и Dells я никогда не сталкивался с полным сбоем шасси.

  • У меня были тепловые события. Кондиционирование не удавалось на объекте совместного размещения, при котором температура воздуха составляла 115 ° F / 46 ° C в течение 10 часов.
  • Силовые скачки и сбои линии: Потеря одной стороны подачи A / B. Индивидуальные сбои питания. В моих установках лезвия обычно шесть источников питания, поэтому есть достаточное предупреждение и избыточность.
  • Индивидуальные сбои блейд-серверов. Проблемы с одним сервером не влияют на остальных в приложении.
  • Встроенное шасси Огонь...

Я видел множество условий и имел преимущество в установке в идеальных условиях центра обработки данных, а также в некоторых более грубых местах. На стороне HP C7000 и C3000 необходимо учитывать, что корпус полностью модульные. Компоненты разработаны для минимизации влияния сбоя компонента на весь блок.

Подумайте об этом как это ... Основное шасси C7000 состоит из передних, (пассивных) модулей средней плоскости и объединительной платы. Структурный корпус просто удерживает передние и задние компоненты вместе и поддерживает вес систем. Почти каждая часть может быть заменена ... поверьте мне, я разобрал многих. Основные сокращения - это вентилятор / охлаждение, питание и сетевое управление. Процессоры управления (Встроенный администратор HP) могут быть сопряжены для избыточности, однако серверы могут работать без них.

enter image description here

Полностью заполненный корпус - вид спереди. Шесть блоков питания в нижней части обеспечивают полную глубину шасси и соединяются с модульной сборкой объединительной платы в задней части корпуса. Режимы электропитания настраиваются: например, 3 + 3 или n + 1. Таким образом, корпус определенно имеет избыточность мощности. enter image description here

Полностью заполненный корпус - вид сзади. Сетевые модули Virtual Connect в задней части имеют внутреннее кросс-соединение, поэтому я могу потерять одну или другую сторону и все еще поддерживать сетевое подключение к серверам. Имеется шесть источников питания с возможностью горячей замены и десять вентиляторов с возможностью горячей замены. enter image description here

Пустой корпус - вид спереди. Обратите внимание, что в этой части корпуса нет ничего общего. Все соединения передаются в модульную среднюю плоскость. enter image description here

Узел сборной плоскости удален. Обратите внимание на шесть подающих питания для сборки средней плоскости внизу. enter image description here

Сборник средней плоскости. Здесь происходит волшебство. Обратите внимание на 16 отдельных соединительных линий: один для каждого из блейд-серверов. У меня были отдельные сокеты / отсеки для серверов, не убивая все приложение или не влияя на другие серверы. enter image description here

Объединительная плата источника питания. 3 ° ниже стандартного однофазного модуля. Я изменил распределение мощности в моем центре обработки данных и просто поменял объединительную плату блока питания, чтобы иметь дело с новым методом подачи питания enter image description here

Повреждение разъема шасси. Этот корпус был сброшен во время сборки, вырывая штифты с ленточного разъема. Это оставалось незамеченным в течение нескольких дней, в результате чего ходовая крышка лезвия FIRE ... enter image description here

Вот обугленные останки ленточного кабеля средней плоскости. Это контролировало некоторые из параметров температуры корпуса и окружающей среды. Блейд-серверы продолжали работать без инцидентов. Затрагиваемые части были заменены на моем досуге во время планового простоя, и все было хорошо. enter image description here


49
2017-12-03 00:03



+1 для C7000. Мы работали в течение последних двух лет, твердо и никогда не испытывали никаких проблем, аппаратных средств или производительности, на корпусе или в лезвиях. - tombull89
Согласитесь с этим - у нас было множество blade-серверов от Dell, и они были довольно пуленепробиваемыми. Я думаю, что у нас один модуль контроллера вышел из строя на одном шасси, и результатом этого является то, что мы не смогли удаленно управлять самим шасси в течение дня, необходимого для поддержки dell, чтобы отправить нам другого контроллера и инженера, чтобы он соответствовал ему. Отсутствие фактического времени простоя устройства из-за отказа или операции для замены контроллера. - Rob Moir
Я должен согласиться с @ewwhite. Я запускал c7000 около 8yrs без остановок без каких-либо сбоев шасси. Мы даже запустили их в 130'F в течение пары часов из-за сбоя HVAC и ничего не случилось. Главное, что нужно иметь в виду - обязательно разделить свои нагрузки на несколько панелей питания и разделить сеть на несколько коммутаторов, чтобы устранить одну точку отказа. Единственное, что мы когда-либо испортили, - это некоторые винчестеры на жестких дисках, но вы тоже это видите на традиционных серверах. - mrTomahawk


Я управляю небольшим количеством блейд-серверов уже восемь лет, и у меня еще не получилось общесистемного сбоя, в результате чего несколько шлюзов отключились. Я пришел очень близко из-за проблем, связанных с энергетикой, но еще не имел обломков шасси, которые не были связаны с внешними источниками.

Ваше замечание о том, что шасси действительно представляет собой одноточечный отказ, является правильным, хотя в наши дни они создают большое количество увольнений. Все блейд-системы, которые я использовал, имели параллельные источники питания для blade-серверов, а также несколько сетевых разъемов, проходящих через отдельные пути, а также в случае многоканальных каналов Fibre Channel от blade-серверов к оптическим портам задней панели. Даже информационная система шасси имела несколько путей.

При соответствующей сетевой инженерии (избыточное использование NIC, MPIO для хранения) события с одной проблемой полностью выживают. В свое время с этими системами у меня были следующие проблемы, ни одна из которых не затронула более одного клинка, если таковые имеются:

  • Два блока питания не работают в стойке. В других 4 было достаточное резервирование для поддержки нагрузки.
  • Потеря фазы для трехфазного питания. В наши дни эти поставки редки, но две другие фазы имеют достаточную емкость для поддержки нагрузки.
  • Потеря цикла управления между шасси. Это было так много лет, прежде чем технология поставщика по другому телефону заметила это.
  • Полностью потерять петли управления между шасси. Мы потеряли доступ к консоли управления, но серверы продолжали работать, как будто ничего не случилось.
  • Кто-то случайно перезагрузил заднюю панель задней панели. Все в этом шасси использовало избыточные сетевые карты, поэтому не было прерываний обслуживания; весь трафик перемещается на другую объединительную плату.

Тем не менее, точка TomTom о стоимости очень верна. Чтобы получить полную стоимость, ваше шасси лезвия должно быть полностью загружено и, вероятно, не будет использовать специальные вещи, такие как переключатели на задней панели. Стойки для клинков имеют смысл в областях, где вам действительно нужна плотность, потому что вы ограничены пространством


19
2017-12-02 17:16



За исключением того, что архитектура SuperMicro Twin дает вам два компьютера на TU с двумя сокетами на один компьютер - это похоже на то, что вы получаете с MOST blade-серверами. это определенно очень плотно;) Единственная более высокая плотность, о которой я знаю, - это лезвия Dell, использующие мост плюща ... но они более ограничены в сравнении. - TomTom
@tomtom, но делает ли supermicro двойной избыточный psus? Мы только что построили один, и я не видел этого варианта нигде. Мы купили холодный запасной псу, чтобы иметь под рукой на всякий случай. - Jeff Atwood
@JeffAtwood, я не видел избыточных блоков питания в 1U близнецов SuperMicro, но их линия двухточечных двойных двойников 2U имеет их. пример, - Charles
Кроме того, кто заботится. Имейте запасной блок питания в стойке. Замена занимает секунды. - TomTom


Этот вопрос может быть расширен для совместного хранения. Опять я бы сказал, что нам нужны два   а не только один - и, опять же, продавцы говорят, что это так рок   твердое, что отказ не ожидается.

Вообще-то, нет. Вы до сих пор считаете нужным, это предложение заставляет их «читать вещи перед вашими глазами». HA с полной репликацией - известная корпоративная функция для блоков хранения. Точка в том, что SAN (блок хранения намного сложнее, чем шасси лезвия, которое в конце - это просто «глупый металл»). Все в шасси лезвия, за исключением некоторых объединительных плат, заменяется - все модули и т. Д. Являются сменными, а отдельные лезвия ARE позволил провалиться. Никто не говорит, что центр лезвия сам по себе дает доступ к лезвиям.

Это сильно отличается от SAN, который должен быть в 100% случаев - в согласованном состоянии - так что у вас есть такие вещи, как репликация и т. Д.

СКАЗАЛ: следите за своими номерами. Я уже давно покупаю лезвия, и они НИКОГДА НЕ СДЕЛАЛИ ФИНАНСОВОГО СМЫСЛА. Шасси слишком дороги, а лезвия на самом деле дешевле по сравнению с обычными компьютерами. Я бы предложил посмотреть на архитектуру SuperMicro Twin как альтернативу.


14
2017-12-02 16:51



Близнецы и близнецы (2U 4-узел) являются Великий альтернативы лезвиям. Intel также выпускает линейку серверов с двумя и двумя близнецами. - Charles
@Charles Ты знаешь, что толстые близнецы? 8 машин в 4 U;) - TomTom
Я видел один, но у меня не было шанса сыграть или оценить его. - Charles


Блейд-серверы, с которыми я работал, - это IBM. Эти особенности полностью модульные, и в них много избыточности. Таким образом, если что-то будет терпеть неудачу, это будет один из компонентов, таких как блок питания или модульный коммутатор и т. Д. Но опять-таки есть избыточность даже в тех.

Поскольку я был связан с blade-серверами IBM, я до сих пор не видел полного сбоя.

С другими брендами я подозреваю, что они будут построены аналогичным образом.
Было бы неплохо поговорить с продавцом и сделать много чтения.
Это большая инвестиция.


4
2017-12-02 20:23





Неудачи, приводящие к перебоям с несколькими блейд-серверами в одном корпусе, сопоставимы (по вероятности и причинам) с отказами, приводящими к многочисленным отказам сервера в одной стойке.

Первоначальная настройка для минимизации одиночных точек отказа (два отдельный Источники питания переменного тока, каждый из которых может обрабатывать всю нагрузку, работая для разделения источников питания постоянного тока, так что половина может обрабатывать всю нагрузку; два отдельный сетевые вложения, любой из которых может обрабатывать всю ожидаемую нагрузку и т. д.), а разница между тем, что вынимает все лезвия в шасси или все серверы 2U в стойке, очень мала.


1
2017-12-03 18:45





Озабоченность, которую я часто читаю на разных форумах, заключается в том, что там   является теоретической возможностью падения серверного шасси -   в результате снимут все лезвия. Это связано с общим   инфраструктуры.

В самом деле! Около 5 лет назад, управляя двумя blade-серверами HP Proliant p-Class, я несколько раз сталкивался с проблемами шасси.

У меня были блейд-серверы, которые не могли включиться, если они были отключены (серверы часто не выключаются, но для нас это очень и очень актуально). У меня были серверы, которые внезапно отключились и не смогли снова включиться. Наконец, я отключил все серверы и не смог снова зайти.

Насколько я помню, почти все проблемы были связаны с плохими объединительными панелями или объединительными модулями контроллера. У нас были те, которые были заменены несколько раз, и неспецифическое, вне записи сообщение, которое я получил от техников, было, что у них была своя доля проблем с этим поколением корпусов blade-серверов.

В то время я решил, что преимущество блейд-серверов просто не стоит риска, если бы я мог что-то сказать в будущих покупках.

Быстро перейдите к моему следующему работодателю и моему нынешнему, если на то пошло. У них уже были корпуса HP Proliant c-Class, поэтому мое теплое чувство холода для лезвий не имело значения. В течение 5 лет, когда я рассматривал шкафы c-Class, я никогда не испытывал ничего подобного, как я делал с p-классом, где мне не удалось полностью закрыть корпус. Они бежали без серьезных проблем.

(За исключением того, что дождя шторма проливает дождь через крышу, 4 этажа, небольшое отверстие в проеме компьютерной комнаты, вниз по кабелю и в шасси)


1
2017-12-06 23:46





В шасси DELL и HP Blade отсутствует избыточная средняя плоскость. Именно здесь IBM Bladecenter оказался победителем. Насколько мне известно, это единственное шасси blade-сервера, которое обеспечивает избыточную среднюю плоскость. Хотя HP предлагает фантастический набор программного обеспечения для управления лезвиями, мы купили Bladecenter E для нашей компании, чтобы избежать единственной точки отказа всего шасси.


-1
2017-10-11 19:04



Это действительно то, что говорят мне маркетинговые материалы IBM; что они являются единственным поставщиком с полностью избыточным blade-решением. Однако после прочтения других сообщений в этом потоке кажется, что в решениях HP есть и это. - Martijn