Вопрос: Лучше ли практиковать покупку RAID-дисков по отдельности или навалом?


Это может звучать как странный вопрос, но с некоторыми моими коллегами он вызвал оживленную дискуссию. Рассмотрим RAID-массив среднего размера, состоящий из восьми или двенадцати дисков. При покупке начальной партии дисков или покупке замен для увеличения массива или обновления аппаратного обеспечения можно использовать два подхода:

  1. Купите все диски в одном порядке у одного поставщика и получите один большой ящик, содержащий все диски.
  2. Заказывайте по одному диску по отдельности от разных поставщиков и / или распределяйте (в течение нескольких дней или недель) несколько заказов по одному диску за штуку.

Очевидно, есть какая-то средняя почва, но это основные противоположные мысли. Мне действительно любопытно, какой подход более разумен с точки зрения снижения риска катастрофического отказа массива. (Давайте определим, что поскольку «25% дисков не работают в течение временного окна, равное тому, сколько времени требуется, чтобы resilver массив один раз».) Логика заключается в том, что если все диски поступают из одного и того же места, все они могут иметь одинаковые лежащие в основе дефекты, ожидающие удара. То же самое время-бомба с тем же начальным обратным отсчетом на часах, если хотите.

Я собрал несколько более общих плюсов и минусов для каждого подхода, но некоторые из них чувствуют себя как гипотеза и инстинкт кишки вместо твердых данных, основанных на доказательствах.

Купить все сразу, профи

  • Меньше времени на этапе исследования / заказа.
  • Минимизирует стоимость доставки, если поставщик взимает плату за нее.
  • Диски в значительной степени гарантированно имеют одну и ту же версию прошивки и те же «причуды» в своих эксплуатационных характеристиках (температура, вибрация и т. Д.),
  • Рост цен / нехватка запасов вряд ли остановят проект на полпути.
  • Каждый следующий диск находится в руке в тот момент, когда он должен быть установлен.
  • Серийные номера известны заранее, диски могут быть установлены в корпусе в порядке возрастания серийного номера. Кажется слишком суетливым, но некоторые люди, кажется, ценят это. (Я думаю, их интерфейс управления сортирует диски по серийному номеру, а не по порядку аппаратного порта ...?)

Купить все сразу, минусы

  • Все диски (возможно) поступали с того же завода, изготовленного в то же время, из тех же материалов. Они хранились в одной и той же среде и подвергались одинаковым потенциальным злоупотреблениям во время транзита. Любой дефект или повреждение, присутствующие в одном, вероятно, присутствуют во всех.
  • Если диски заменяются по очереди в существующий массив, и каждый новый диск должен быть перенастроен отдельно, это может быть потенциально за несколько недель до того, как последний диск из заказа будет установлен и обнаружен неисправным. Окно возврата / замены с продавцом может истечь в течение этого времени.
  • Нельзя использовать преимущества снижения цены в ближайшем будущем, которые могут возникнуть во время проекта.

Покупайте отдельно, профи

  • Если один диск выходит из строя, он имеет очень мало истории производства / транзита с любым другим диском. Если отказ был вызван чем-то в производстве или транзите, то основная причина, скорее всего, не произошла ни на одном другом диске.
  • Если диск мертв по прибытии или не работает в течение первых часов использования, это будет обнаружено вскоре после прибытия груза, и процесс возврата может идти более плавно.

Покупайте отдельно, минусы

  • Занимает значительное количество времени, чтобы найти достаточно продавцов с приемлемыми ценами. Отслеживание заказов, отказ доставки, возврат поврежденных элементов и другие проблемы могут потребовать много времени для решения проблемы.
  • Потенциально более высокие затраты на доставку.
  • Существует очень реальная возможность того, что потребуется новый диск, но ни один из них не будет находиться в руке, остановив проект.
  • Воображаемая выгода. Независимо от продавца или даты покупки все диски поступают из одного и того же места и на самом деле одинаковы. Производственные дефекты были бы обнаружены с помощью контроля качества, а некачественные диски не были бы проданы. Ущерб от порчи должен быть настолько вопиющим (и явно видимым невооруженным глазом), что поврежденные диски будут очевидны при распаковке.

Если мы будем просто подсчитывать количество очков, то «купить навалом» выигрывает довольно четко. Но некоторые из профи слабы, а некоторые из них сильны. Многие из пунктов пули просто указывают логические обратные для некоторых других. Некоторые из этих вещей могут быть абсурдным суеверием. Но если суеверия лучше справляется с сохранением целостности массива, я думаю, я согласен согласиться с этим.

Какая группа наиболее разумна здесь?

ОБНОВИТЬ: У меня есть данные, имеющие отношение к этому обсуждению. В последнем массиве, который я лично построил (около четырех лет назад), было восемь дисков. Я заказал у одного поставщика, но разделить покупку на два порядка по четыре диска каждый, около одного месяца друг от друга. Один диск массива завершился неудачно в течение первых часов работы. Это было от первой партии, и окно возврата для этого ордера закрылось за время, затраченное на то, чтобы все перевернуть.

Четыре года спустя семь оригинальных дисков и одна замена по-прежнему работают без ошибок. (постучать по дереву.)


93
2017-08-23 16:01


Источник


+1 от меня за вопрос, потому что я хотел узнать это некоторое время сам. у меня есть определенно видел феномен жестких дисков больших файловых серверов, все это приближается к концу кривой ванны примерно в то же время, но часто количество одобренных поставщиков для таких серверов довольно мало, поэтому подход «покупать лота» довольно сложно. Я с нетерпением жду встречи с реальные данные в них. - MadHatter
Число рейнольдса ваше обновление: это единая точка данных. Повторите это для тысяч дисков, чтобы получить полезную метрику. Это трудно сделать, особенно с короткими циклами продуктов на дисках, что приводит к отсутствию такого рода данных. - Sven♦
Кажется, я вспоминаю, что некоторое время назад я вернулся к согласию передовая практика вопросы были по-теме, при условии, что они не просто генерируют кучу anecdata. Надеюсь, этот вопрос может дать отличные ответы, и я думаю, что мы должны дать ему шанс. - MadHatter
@ Свен спасибо, ты джентльмен; здесь надеемся. И любым потенциальным ответчикам: данные, а не анекдоты, пожалуйста, - MadHatter
Я управляю множеством машин с рейдами. Все диски в конечном итоге терпят неудачу так что у вас будет достаточно запасных частей, чтобы вы могли обменять их с самого раннего уведомления, скорее всего, префайла, а не ожидания полного сбоя. - Criggie


Ответы:


На практике люди, покупающие у вендоров (HPE, Dell и т. Д.), не беспокойся об этом,

Приводы этих поставщиков уже распределены между несколькими производителями под тем же номером детали.

Диск HP под конкретным SKU может быть HGST или Seagate или Western Digital.

Тот же номер детали HP, отклонение от производителя, номер лота и прошивка enter image description here

Однако вы не должны пытаться перехитрить / перехитрить вероятность пакетного сбоя. Вы можете попробовать, если это даст душевное спокойствие, но это может не стоить усилий.

Хорошая практика, такая как кластеризация, репликация и надежное резервное копирование, является реальной защитой от сбоев партии. Добавьте горячие и холодные запчасти. Следите за своими системами. Воспользуйтесь умными файловыми системами, такими как ZFS :)

И помните, что сбои жесткого диска не всегда механические ...


56
2017-08-23 16:29



Тем не менее, элемент хранения / доставки остается в игре. Если кто-то из склада HP или FedEx упадет в коробку с дисками, это может повлиять на всю полученную партию. - smitelli
@smitelli Хорошо. Резервные копии, RAID, репликация, DR, запасные части. Вероятность одновременного сбоя всех ваших дисков достаточно мала, что это не проблема, которую большинство должно подготовиться к встрече. - ewwhite
Что-то, о чем нужно знать, я купил 5 накопителей архива потребительского класса для блока SW RAID в одном порядке от Amazon. Первый провалился через 48 месяцев. Второй, 53 месяца. Третий и четвертый провалились в течение 2-недельного периода на 55-м месяце, а последний не удался через 57 месяцев. К счастью, я использовал трехстороннюю избыточность, но все же ... не то, что я ожидал. Я не знаю, были ли сериалы последовательными, но сами диски были практически идентичны. - MooseBoys
@ewwhite Да, но если вы закажете 10 из того же SKU за один раз, у них меньше шансов быть у нескольких поставщиков, чем если вы закажете их по 1 в месяц. Это то, что я делаю. - Kaithar
Этот ответ кажется немного упрямым и, похоже, не дает никаких аргументов в пользу того, почему это может быть правдой ... вы говорили со всеми людьми, заказывающими Dell? Что такое «умный» об изнашивании пакетного отказа? Действительно ли это хорошо что люди делают то, что вы предполагаете? - AnoE


В знак уважения к ответу от ewwhite некоторые системные администраторы делают заказ в партиях. Я никогда бы не сам заказывал диски на индивидуальной основе, но стандартные операционные системы на последнем месте, в которых я работал, были в том, чтобы заказывать диски партиями. Для двенадцати приводной машины SOP продиктовал, что диски разделены на три части, предоставив машине трехуровневый профиль избыточности.

Однако другие небольшие наряды, с которыми я консультировался, выполняли разные протоколы, некоторые из которых не касались партии, а другие разделяли партии на два или четыре массива. Короткий ответ делайте то, что вам подходит для уровня обслуживания, которого вам нужно достичь.

Боковое замечание: Последнее место, где я работало, несомненно, поступало правильно. Машина для хранения приложений решила сбой на всей партии дисков, и мы обнаружили, что эта конкретная партия имеет одинаковую ошибку. Если бы мы не следовали пакетному протоколу, мы бы понесли катастрофическую потерю данных.


43
2017-08-23 17:44



Я бы подумал о том, чтобы сделать эту боковую записку впереди! - Oddthinking


Честный ответ от кого-то, кто потратил много времени на борьбу с гибельными массивами рейдов и трудными дисками: не нужно, чтобы все ваши диски были из одной партии, если вы можете избежать этого.

Мой опыт применим только к вращающимся дискам. У SSD есть свои проблемы и преимущества, которые следует учитывать при массовом заказе.

Точно, лучший способ справиться с ситуациями зависит в основном от того, насколько велик массив, с которым вы работаете, если вы работаете с чем-то вроде 6 массивов дисков с 2 избыточными дисками, вы можете, вероятно, безопасно купить похожие диски от 3-х производителей и разделить массив как это.

Если вы используете нечетный диск или работаете с массивами, которые не могут быть легко разделены, вы можете попробовать другие подходы, такие как покупка одного и того же диска у разных поставщиков, или если вы покупаете навалом, вы можете просмотреть и попытайтесь отделить диски, исходя из вероятности того, что они будут изготовлены вместе.

Если вы используете достаточно маленький массив с нужными технологиями, это даже может стоить вашего времени, чтобы постепенно наращивать его из гетерогенных дисковых ресурсов. Начните с минимального количества дисков, с которыми вы можете избавиться, и купите следующий запас через месяц или два позже, или когда вы заполните систему. Это также позволит вам почувствовать любые проблемы, которые могут возникнуть с конкретными моделями, которые вы выбрали.

Причиной этого совета является сочетание двух причуд дисков.

  1. MTBF замечательно сломан, когда у вас много дисков с похожим происхождением. В статистике мы будем называть это смещением выборки, из-за сходства в ваших образцах усредняющие эффекты будут менее полезными. Если есть ошибка в партии или даже с самим дизайном, и это происходит чаще, чем вы думаете, тогда диски из этой партии будут терпеть неудачу раньше, чем предложит MTBF.

    Если диски распределены, вы можете получить [50%, 90%, 120%, 200%] от MTBF, но если все диски поступают из этой 50% -ной партии, у вас беспорядок на руках.

  2. Сборка рейдового массива убивает диски. Нет, действительно. Если вы получите сбой накопителя и восстановите массив, он добавит дополнительную нагрузку на другие диски, пока он сканирует данные с них. Если у вас есть диск, близкий к ошибке, перестроение может его полностью вычеркнуть или у него может быть место сбоя, о котором вы просто не знали, потому что этот раздел не был недавно прочитан.

    Если у вас много дисков из той же партии, вероятность возникновения такого рода каскадного сбоя намного выше шансов, если они будут разными. Вы можете смягчить это путем регулярного сканирования патрулей, скрабов, resilvering, независимо от того, какая рекомендуемая практика относится к типу используемого массива, но недостатком является то, что это повлияет на производительность и может занять несколько часов.

В каком-то контексте о том, насколько дико отличается долговечность дисков, Backblaze делает стандартный отчет о сбое диска ... Я никоим образом не связан с компанией, но они должны знать, о чем они говорят, в отношении надежности привода , Примером является https://www.backblaze.com/blog/hard-drive-failure-rates-q1-2017/ ... ваш набор образцов, вероятно, будет меньше, поэтому отдаленные данные могут испортить ваш собственный опыт, это все еще хорошая рекомендация.


37
2017-08-23 20:52



это должен быть принятый ответ. рейд с аналогичными (из одной и той же прошивки / партии, или купил вместе и неправильно понял), диски имеют гораздо более высокий риск катастрофического отказа - Olivier Dulac
@OlivierDulac, и если на диске произошел катастрофический сбой дизайна, вы становитесь очень болезненным. В накопителях серии WD Raptor емкостью 300 ГБ / 600 ГБ / 900 ГБ с частотой 2,5 дюйма / с частотой отказов, которые необходимо испытать, можно верить. - Kaithar
Ссылка на Backblaze ... отлично. - O. Jones


Я должен был рассмотреть эту проблему для клиента пару лет назад. У меня есть сочетание практического опыта и исследований, чтобы поддержать рекомендацию о мультиисследовании.

Оставляя в стороне ваши плюсы и минусы на данный момент, а также отличный ответ ewwhite, осторожность предполагает, что, если вы сами покупаете диски, вы их мультиисследовательствуете. Быстрый взгляд на обсуждение недостатков RAID в Википедии указывает на две интересные ссылки.

Первой ссылкой является бумага ACM RAID: высокопроизводительное, надежное вторичное хранилище (Чэнь, Ли, Гибсон, Кац и Паттерсон, ACM Computing Surveys, 26: 145-185). В разделе 3.4.4 авторы отмечают, что аппаратные сбои не всегда являются статистически независимыми событиями и приводят причины. В то время, когда я пишу этот ответ, документ доступен в Интернете; стр. 19-22 обсуждают надежность (http://citeseerx.ist.psu.edu/viewdoc/summary?doi=10.1.1.41.3889).

Вторая ссылка Ошибки диска в реальном мире: что для вас означает MTTF, равный 1 000 000 часов? (Schroeder, Gibson, 5-я Конференция USENIX по технологиям хранения и хранения данных). Авторы представляют статистические данные для подтверждения утверждения о том, что сбои накопителя могут быть сгруппированы во времени со скоростью, превышающей предсказанную для независимых событий. В то время, когда я пишу этот ответ, этот документ также доступен в Интернете (https://www.usenix.org/legacy/events/fast07/tech/schroeder/schroeder_html/index.html).

Dell явно рекомендовала против RAID 5 в 2012 году из-за коррелированных отказов дисков в больших дисковых средах; Как ожидается, RAID 6 станет ненадежным по аналогичным причинам примерно в 2019 году (статья ZDNet под названием «why-raid-6-stop-working-in-2019»: http://www.zdnet.com/article/why-raid-6-stops-working-in-2019/). Хотя ключевым элементом обоих из них является размер диска и время восстановления, меньшие размеры дисков и множества источников был рекомендован в качестве смягчающего средства для проблемы RAID 5.

Так что да, многопользовательские диски, если сможете; если вы покупаете у поставщика предприятия, как описано в ответ ewwhite это может происходить для вас прозрачно. Однако ... мой клиент купил 16 двухточечных дисков от поставщика предприятия. Они просто оказались от одного производителя и, как представляется, были изготовлены одновременно. Два из дисков не удалось выполнить в течение двух недель после настройки массивов RAID01. Поэтому проверьте диски, когда вы их получите. (Вы все равно их проверяете, верно?)


9
2017-08-25 20:29



Я действительно не понимаю их аргумента в пользу отказа RAID6 из-за увеличения емкости хранилища. Любой RAID-массив зависит от правильного обслуживания. У нас очень большие массивы с RAID6 и никогда не встречались с URE во время перестройки, что привело к потере данных. Просто выполняйте запланированные проверки объема, как и каждый MFG, и вы будете в порядке. - Brian D.


Другим потенциальным недостатком при заказе дисков в отдельности является упаковка и обработка.

Жесткие диски почти никогда не поставляются в розничной упаковке. Если вы покупаете их по одному, они почти наверняка будут переупакованы продавцом. Я нашел эту переупаковку очень переменной. Иногда вы получаете красивую коробку с множеством дополнений, но в других случаях вы вряд ли получаете отступы.

Маленькая коробка также более уязвима для того, чтобы ее бросали перевозчики без очевидного внешнего ущерба.


4
2017-08-23 20:44





Если вы пытаетесь смягчить сценарий «плохой пакет», что означает, что каждый диск в определенной партии покупок может / не удастся в одно и то же время, важно также учитывать размер массива и используемый уровень RAID.

Если вы считаете, что выполняете несколько заказов, стандартный стандарт не применяется по всем направлениям. Люди, рекомендующие 2 - 4 уровня закупок, должны спросить себя, если один целый ряд дисков не удастся, будет ли массив включенным? Поэтому для избыточных уровней RAID, таких как 1/5/10/50, вам придется покупать диски по одному за раз. Для RAID6 вы можете купить по 2 за раз.

Я бы порекомендовал, независимо от того, как вы регулярно покупаете диски, на которые вы производите резервную копию, и приобретаете подходящие запасные части для горячего / холодного охлаждения для вашего размера массива и типа RAID.


2
2017-08-28 19:01





Я всегда покупаю подержанный / объемный. Заказы, которые я отслеживаю, почти всегда являются одной и той же моделью устройства, и ее использование, по меньшей мере, смягчает обеспокоенность по поводу «плохой партии». В Интернете есть так много оборудования для продажи огня, что мне сложно найти новые диски (или что-то еще в этом отношении), если только для критически важных аппаратных средств (и все наше резервное оборудование все еще обновляется!)

+ PRO: конкурентное онлайн-ценообразование и постоянное наводнение оборудования из-за смещения бизнес-сред, означает, что почти не требуется усилий для того, чтобы получить 50-80% от розничной продажи для рабочей среды.

+ PRO: Цена низкая цена освобождает бюджет от чрезмерной покупки и поддерживает надежный запас запасного оборудования.

+ PRO: Отношения продавцов У меня есть несколько онлайн-продавцов, у которых я получаю небольшие скидки от уже значительной скидки на ремонт / использование оборудования. Обычно это не получается с Monoprice, если вы не покупаете в огромном количестве или не имеете SLA с ними. Кроме того, особенно с жесткими дисками, просто убедитесь, что вы тестируете их прямо из коробки. У меня никогда не было проблемы с продавцом, не возвращающим или заменяющим аппаратное обеспечение DOA (если это не было мошенничеством, которое я не смог поймать).

-ПРОТИВ: Гарантия, проблемы с легитимностью Гарантия основана на дате изготовления устройства, вам также нужно будет следить за онлайн-хукстерами, пытающимися продать вам ремарки, клоны и т. Д.

-ПРОТИВ: тестирование Необходимо учитывать затраты на тестирование. Независимо от того, вы должны тестировать новое оборудование, так что не уверен, что это применимо.

-ПРОТИВ: продолжительность жизни трудно судить; немного более восприимчивы к отказам диска.

Заметка: если это клиентская сборка, и они не требуют явного запроса refurb / used, всегда блестящим / новым!


2
2017-09-01 06:17



Полностью. Я покупаю много внереализационных и реконструированных дисков HP, потому что: дешево. Кроме того, гарантия сервера HP имеет тенденцию покрывать все, что внутри шасси, так что, пока это действительная часть, это хорошо. - ewwhite


Можно повысить надежность, используя жесткие диски, которые поступают от разных партий и в идеале от производителей. В противном случае они могут слишком быстро сойти с течением времени. Отличный ответ @Eliodorus объясняет это достаточно.

Конечно, неважно, кто перетасовывает диски. Если ваш провайдер подтверждает, что это уже для вас, вам не нужно заботиться. Однако, кажется, не разумно делать какую-либо судебную экспертизу, возможно, даже у другого провайдера, и заключить, что кто-то делает для вас, если вам не говорят напрямую. Провайдеры обычно не ленится рекламировать различные меры, которые они предпринимают для повышения надежности своих приводов.


1
2017-08-28 14:18





Собственно, это зависит от Резервный массив недорогих дисков (Рейд). В Raid два, три, четыре, пять и шесть, это помогает иметь диски из нескольких разных партий, но это не является решающим: один из них по своей сути утрачивает надежность и производительность при использовании этих уровней.

Теперь, для обычного разумного выбора - использования Raid 1 (зеркальное отображение) или 1 + 0 (чередование зеркал), действительно полезно иметь разные диски с разных сторон каждого зеркала (каждый массив Raid 1), чтобы во время восстановления зеркало не сработает. Кроме того, для минимизации окна восстановления должны быть горячие резервы.

Для получения дополнительной информации, проверьте язык в щеку, но информативный битва против любого рейда 'F'2 (Baarf) веб-сайт, по престижной Сеть дубовых столов старших администраторов баз данных. Википедия также подводит итог вопроса красиво.


1
2017-08-23 19:14



Кажется, это просто мнение. Если у вас есть источники, цитата и ссылка на них. - MadHatter
Ну, на самом деле я упомянул источник. И я бы сказал, что это гораздо логичнее (характер зеркалирования против чередования и контрольных сумм), чем мнение. - lfd
Источник, с которым вы не связаны и не цитировали; ожидая, что другие пользователи Google для вашего исходного веб-сайта, чтобы искать все это для поддержки данных, на самом деле не дают убедительного ответа. Что касается это вопрос логики, в конспект Я думаю, мы были довольно ясно, что это имеет смысл ответы на этот конкретный вопрос не будут хорошо расценены. - MadHatter
baarf.dk/BAARF/RAID5_versus_RAID10.txt - bishop
@lfd связанный с веб-сайтом, используя «логику» для объяснения своей позиции, не предоставляет данные (которые я мог видеть с быстрого взгляда). Проблема с «логикой» заключается в том, что это просто другое название теории в этом контексте. И проблема с непроверенными теориями, мы надеемся, понятна. Обратите внимание, что непроверенные теории, подкрепленные экспертами, по-прежнему имеют ту же проблему, что и непроверенные теории в целом. - user2460798


Насколько я знаю, проверка качества дискового хранилища на заводе довольно высока, и я лично не побоюсь из-за сбоя оборудования в сборе из-за производственных причин.

И если бы я был немного параноиком, я бы просто купил хранилище от двух разных производителей, которые, как я знаю, не разделяют фабрики, через одного и того же поставщика.

Хранение так дешево, что это не имеет смысла, поскольку компания НЕ покупает оптом, и вы будете в компании также списать хранилище через пару лет, поэтому инвестиции не так уж велики. Время, затрачиваемое на покупку у отдельных продавцов, вероятно, стоит больше из-за времени.

Если вы все еще боитесь отказа диска навалом, купите больше, чем вам нужно. если вы знаете, что вам нужно 12 дисков, чем купить от 5 до 7 в запасных. Это будет всего в $ 48 раз от 5 до 7, за терабайт, и мы все равно можем пойти дешевле, не делая нашу систему нестабильной или небезопасной, потому что, если скидка на массовые или подержанные диски (почему это безопасно). Чем мы говорим о resilver / повторной инициализации массива, теперь я, конечно, не могу понять, насколько велико ваше решение для хранения данных, но если вы потратите несколько недель на эту задачу, я бы, вероятно, подумал бы о перенастройке организационного хранилища, поскольку это звучит (для меня) скорее как мисс-конфигурация, чем что-либо еще так или иначе.

Если мы станем ДЕЙСТВИТЕЛЬНО параноидальными, получите 2x того, что когда-либо было для решения хранилища, исходя из того, насколько чувствительна ваша организация к разбивке на хранилище, это может быть дешевле, это не только вариант для 500 компаний.

И мы также можем поговорить о загрузке данных, которые нам не нужны здесь и сейчас, например (случайный пример) лет исторических финансовых данных для «облачных» поставщиков, которые мы сначала зашифровали. Это избавит вас от потребностей хранения в нашем собственном хранилище, которое освободит нас как в финансовом, так и в функциональном плане.

Основываясь на том, кто вы, где вы и что вы делаете, это будут разные решения для лучшей работы для вас.


-1
2018-05-14 16:21



Если вы что-то не так, как должно быть, порядочность, чтобы указать, почему. Возможно, у вас аллергия на правду. - Cristian Matthias Ambæk