Вопрос: Вероятность отказа шасси лезвия
В моей организации мы думаем о покупке блейд-серверов - вместо серверов стойки. Конечно, поставщики технологий также делают их очень приятными. Озабоченность, которую я часто читаю на разных форумах, заключается в том, что существует теоретическая возможность падения серверного шасси - что, в результате, приведет к удалению всех лезвий. Это связано с общей инфраструктурой.
Моя реакция на эту вероятность состояла бы в том, чтобы иметь избыточность и два шасси вместо одного (очень дорогостоящее, конечно).
Некоторые люди (включая, например, HP Vendors) пытаются убедить нас в том, что шасси очень маловероятно, что это может быть неудачно из-за многих избыточности (избыточное питание и т. Д.).
Еще одна проблема на моей стороне заключается в том, что если что-то снижается, могут потребоваться запчасти - что сложно в нашем месте (Эфиопия).
Поэтому я бы попросил опытных администраторов, которые управляли блейд-сервером: Каков ваш опыт? Они идут вниз в целом - и какая разумная общая инфраструктура может потерпеть неудачу?
Этот вопрос может быть расширен для совместного хранения. Снова я бы сказал, что нам нужны две единицы хранения, а не только одна - и, опять же, продавцы говорят, что все это так здорово, что не ожидается никаких сбоев.
Ну, я с трудом могу поверить, что такая критическая инфраструктура может быть очень надежной без избыточности - но, может быть, вы можете сказать мне, есть ли у вас успешные проекты на основе blade-серверов, которые работают без избыточности в своих основных частях (шасси, хранилище ... )
На данный момент мы смотрим на HP - поскольку IBM выглядит слишком дорого.
47
2017-12-02 16:41
Источник
Ответы:
Существует низкая вероятность полного отказа шасси ...
Вероятно, вы столкнетесь с проблемами на своем объекте, прежде чем полный неисправность корпуса лезвия.
Мой опыт в основном связан с HP C7000 а также HP C3000 . Я также управлял blade-решениями Dell и Supermicro. Продавец имеет значение. Но, в общем, аппаратура HP была звездной, Dell была в порядке, и Supermicro не обладал качеством, отказоустойчивостью и был просто плохо разработан. Я никогда не испытывал сбоев на стороне HP и Dell. У Supermicro были серьезные перебои в работе, заставившие нас отказаться от платформы. На HP и Dells я никогда не сталкивался с полным сбоем шасси.
- У меня были тепловые события. Кондиционирование не удавалось на объекте совместного размещения, при котором температура воздуха составляла 115 ° F / 46 ° C в течение 10 часов.
- Силовые скачки и сбои линии: Потеря одной стороны подачи A / B. Индивидуальные сбои питания. В моих установках лезвия обычно шесть источников питания, поэтому есть достаточное предупреждение и избыточность.
- Индивидуальные сбои блейд-серверов. Проблемы с одним сервером не влияют на остальных в приложении.
- Встроенное шасси Огонь...
Я видел множество условий и имел преимущество в установке в идеальных условиях центра обработки данных, а также в некоторых более грубых местах. На стороне HP C7000 и C3000 необходимо учитывать, что корпус полностью модульные. Компоненты разработаны для минимизации влияния сбоя компонента на весь блок.
Подумайте об этом как это ... Основное шасси C7000 состоит из передних, (пассивных) модулей средней плоскости и объединительной платы. Структурный корпус просто удерживает передние и задние компоненты вместе и поддерживает вес систем. Почти каждая часть может быть заменена ... поверьте мне, я разобрал многих. Основные сокращения - это вентилятор / охлаждение, питание и сетевое управление. Процессоры управления (Встроенный администратор HP) могут быть сопряжены для избыточности, однако серверы могут работать без них.

Полностью заполненный корпус - вид спереди. Шесть блоков питания в нижней части обеспечивают полную глубину шасси и соединяются с модульной сборкой объединительной платы в задней части корпуса. Режимы электропитания настраиваются: например, 3 + 3 или n + 1. Таким образом, корпус определенно имеет избыточность мощности.

Полностью заполненный корпус - вид сзади. Сетевые модули Virtual Connect в задней части имеют внутреннее кросс-соединение, поэтому я могу потерять одну или другую сторону и все еще поддерживать сетевое подключение к серверам. Имеется шесть источников питания с возможностью горячей замены и десять вентиляторов с возможностью горячей замены.

Пустой корпус - вид спереди. Обратите внимание, что в этой части корпуса нет ничего общего. Все соединения передаются в модульную среднюю плоскость.

Узел сборной плоскости удален. Обратите внимание на шесть подающих питания для сборки средней плоскости внизу.

Сборник средней плоскости. Здесь происходит волшебство. Обратите внимание на 16 отдельных соединительных линий: один для каждого из блейд-серверов. У меня были отдельные сокеты / отсеки для серверов, не убивая все приложение или не влияя на другие серверы.

Объединительная плата источника питания. 3 ° ниже стандартного однофазного модуля. Я изменил распределение мощности в моем центре обработки данных и просто поменял объединительную плату блока питания, чтобы иметь дело с новым методом подачи питания

Повреждение разъема шасси. Этот корпус был сброшен во время сборки, вырывая штифты с ленточного разъема. Это оставалось незамеченным в течение нескольких дней, в результате чего ходовая крышка лезвия FIRE ...

Вот обугленные останки ленточного кабеля средней плоскости. Это контролировало некоторые из параметров температуры корпуса и окружающей среды. Блейд-серверы продолжали работать без инцидентов. Затрагиваемые части были заменены на моем досуге во время планового простоя, и все было хорошо.

49
2017-12-03 00:03
Я управляю небольшим количеством блейд-серверов уже восемь лет, и у меня еще не получилось общесистемного сбоя, в результате чего несколько шлюзов отключились. Я пришел очень близко из-за проблем, связанных с энергетикой, но еще не имел обломков шасси, которые не были связаны с внешними источниками.
Ваше замечание о том, что шасси действительно представляет собой одноточечный отказ, является правильным, хотя в наши дни они создают большое количество увольнений. Все блейд-системы, которые я использовал, имели параллельные источники питания для blade-серверов, а также несколько сетевых разъемов, проходящих через отдельные пути, а также в случае многоканальных каналов Fibre Channel от blade-серверов к оптическим портам задней панели. Даже информационная система шасси имела несколько путей.
При соответствующей сетевой инженерии (избыточное использование NIC, MPIO для хранения) события с одной проблемой полностью выживают. В свое время с этими системами у меня были следующие проблемы, ни одна из которых не затронула более одного клинка, если таковые имеются:
- Два блока питания не работают в стойке. В других 4 было достаточное резервирование для поддержки нагрузки.
- Потеря фазы для трехфазного питания. В наши дни эти поставки редки, но две другие фазы имеют достаточную емкость для поддержки нагрузки.
- Потеря цикла управления между шасси. Это было так много лет, прежде чем технология поставщика по другому телефону заметила это.
- Полностью потерять петли управления между шасси. Мы потеряли доступ к консоли управления, но серверы продолжали работать, как будто ничего не случилось.
- Кто-то случайно перезагрузил заднюю панель задней панели. Все в этом шасси использовало избыточные сетевые карты, поэтому не было прерываний обслуживания; весь трафик перемещается на другую объединительную плату.
Тем не менее, точка TomTom о стоимости очень верна. Чтобы получить полную стоимость, ваше шасси лезвия должно быть полностью загружено и, вероятно, не будет использовать специальные вещи, такие как переключатели на задней панели. Стойки для клинков имеют смысл в областях, где вам действительно нужна плотность, потому что вы ограничены пространством
19
2017-12-02 17:16
Этот вопрос может быть расширен для совместного хранения. Опять я бы сказал, что нам нужны два
а не только один - и, опять же, продавцы говорят, что это так рок
твердое, что отказ не ожидается.
Вообще-то, нет. Вы до сих пор считаете нужным, это предложение заставляет их «читать вещи перед вашими глазами». HA с полной репликацией - известная корпоративная функция для блоков хранения. Точка в том, что SAN (блок хранения намного сложнее, чем шасси лезвия, которое в конце - это просто «глупый металл»). Все в шасси лезвия, за исключением некоторых объединительных плат, заменяется - все модули и т. Д. Являются сменными, а отдельные лезвия ARE позволил провалиться. Никто не говорит, что центр лезвия сам по себе дает доступ к лезвиям.
Это сильно отличается от SAN, который должен быть в 100% случаев - в согласованном состоянии - так что у вас есть такие вещи, как репликация и т. Д.
СКАЗАЛ: следите за своими номерами. Я уже давно покупаю лезвия, и они НИКОГДА НЕ СДЕЛАЛИ ФИНАНСОВОГО СМЫСЛА. Шасси слишком дороги, а лезвия на самом деле дешевле по сравнению с обычными компьютерами. Я бы предложил посмотреть на архитектуру SuperMicro Twin как альтернативу.
14
2017-12-02 16:51
Блейд-серверы, с которыми я работал, - это IBM. Эти особенности полностью модульные, и в них много избыточности. Таким образом, если что-то будет терпеть неудачу, это будет один из компонентов, таких как блок питания или модульный коммутатор и т. Д. Но опять-таки есть избыточность даже в тех.
Поскольку я был связан с blade-серверами IBM, я до сих пор не видел полного сбоя.
С другими брендами я подозреваю, что они будут построены аналогичным образом.
Было бы неплохо поговорить с продавцом и сделать много чтения.
Это большая инвестиция.
4
2017-12-02 20:23
Неудачи, приводящие к перебоям с несколькими блейд-серверами в одном корпусе, сопоставимы (по вероятности и причинам) с отказами, приводящими к многочисленным отказам сервера в одной стойке.
Первоначальная настройка для минимизации одиночных точек отказа (два отдельный Источники питания переменного тока, каждый из которых может обрабатывать всю нагрузку, работая для разделения источников питания постоянного тока, так что половина может обрабатывать всю нагрузку; два отдельный сетевые вложения, любой из которых может обрабатывать всю ожидаемую нагрузку и т. д.), а разница между тем, что вынимает все лезвия в шасси или все серверы 2U в стойке, очень мала.
1
2017-12-03 18:45
Озабоченность, которую я часто читаю на разных форумах, заключается в том, что там
является теоретической возможностью падения серверного шасси -
в результате снимут все лезвия. Это связано с общим
инфраструктуры.
В самом деле! Около 5 лет назад, управляя двумя blade-серверами HP Proliant p-Class, я несколько раз сталкивался с проблемами шасси.
У меня были блейд-серверы, которые не могли включиться, если они были отключены (серверы часто не выключаются, но для нас это очень и очень актуально). У меня были серверы, которые внезапно отключились и не смогли снова включиться. Наконец, я отключил все серверы и не смог снова зайти.
Насколько я помню, почти все проблемы были связаны с плохими объединительными панелями или объединительными модулями контроллера. У нас были те, которые были заменены несколько раз, и неспецифическое, вне записи сообщение, которое я получил от техников, было, что у них была своя доля проблем с этим поколением корпусов blade-серверов.
В то время я решил, что преимущество блейд-серверов просто не стоит риска, если бы я мог что-то сказать в будущих покупках.
Быстро перейдите к моему следующему работодателю и моему нынешнему, если на то пошло. У них уже были корпуса HP Proliant c-Class, поэтому мое теплое чувство холода для лезвий не имело значения. В течение 5 лет, когда я рассматривал шкафы c-Class, я никогда не испытывал ничего подобного, как я делал с p-классом, где мне не удалось полностью закрыть корпус. Они бежали без серьезных проблем.
(За исключением того, что дождя шторма проливает дождь через крышу, 4 этажа, небольшое отверстие в проеме компьютерной комнаты, вниз по кабелю и в шасси)
1
2017-12-06 23:46
В шасси DELL и HP Blade отсутствует избыточная средняя плоскость. Именно здесь IBM Bladecenter оказался победителем. Насколько мне известно, это единственное шасси blade-сервера, которое обеспечивает избыточную среднюю плоскость. Хотя HP предлагает фантастический набор программного обеспечения для управления лезвиями, мы купили Bladecenter E для нашей компании, чтобы избежать единственной точки отказа всего шасси.
-1
2017-10-11 19:04