Вопрос: Замена жестких дисков [закрыта]


Мне было интересно, стоит ли заменить жесткий диск на (справедливо) системном сервере баз данных через определенное количество лет использования, прежде чем он умрет.

Например, я думал о замене жесткого диска после 3 лет использования. Поскольку у меня много жестких дисков на разных серверах, я могу пошатнуть, какие жесткие диски будут заменены.

Это хорошая идея, или люди просто ждут провала?


19
2017-12-19 19:19


Источник




Ответы:


Google провел исследование на дисках и обнаружил очень мало корреляции между возрастом диска и сбоем. SMART-тесты также не показывают сбоев.

Мои локальные наблюдения (> 500 серверов) похожи. У меня новые диски терпят неудачу, а старые все еще нажимают друг на друга.

Мое общее правило: если мы увидим проблемы с диском (SMART или системные ошибки), мы заменим его немедленно. Если нет, то приводы запускаются циклически, когда сервер делает.

Google Study http://static.googleusercontent.com/external_content/untrusted_dlcp/research.google.com/en/us/archive/disk_failures.pdf


33
2017-12-19 19:28



Обычно это то, о чем я думал, но хотел посмотреть, что сделали другие. благодаря - Garfonzo
Я согласен. Мы наблюдаем гораздо более высокие частоты отказов с более новыми 2,5-дюймовыми SAS-дисками, чем с 10-летними серверами с 3,5-дюймовыми SCSI-дисками емкостью 9 ГБ! - James O'Gorman
@ JamesO'Gorman Изменение производственных процессов ... заставляет меня задаться вопросом, что было сделано для новых дисков как часть некоторого инженерного «компромисса». - Avery Payne
Microsoft Technet также содержит статью о отказоустойчивости, которая вкратце затрагивает проблему отказа жесткого диска / механического компонента (technet.microsoft.com/en-us/library/bb742464.aspx) - Они немного рассказывают о «кривой ванны», о том, что механические отказы компонентов имеют тенденцию следовать. - voretaq7
@AveryPayne Re новые диски, обратите внимание, что 2,5-дюймовые диски имеют МНОГО более жесткие допуски. В результате «приемлемый» механический откос на 3,5-дюймовом диске может привести к катастрофическому сбою на 2,5-дюймовом диске. См. Также статью TechNet, связанную с кривой ванны. Механические компоненты страдают от высокой младенческой смертности в целом, а затем относительно стабильны, пока они, наконец, не умрут от «старости». 2,5-дюймовые диски по-прежнему находятся на территории «младенческой смертности» - по моему опыту, по крайней мере, на 1 год работы. - voretaq7


Нет.

Одна из самых больших проблем с заменой жесткого диска на активном сервере производства заключается в том, что это приведет к восстановлению. Особенно, если вы используете RAID5, и особенно если вы используете большие диски, принудительная перестройка создает очень значительный риск неисправимого сбоя. Риск потери массива во время перестройки намного больше, чем риск, связанный с тем, что вы оставите 3-летний диск на месте.

Принимая крайний пример, если вы последовательно заменяете каждый диск в массиве RAID-массивов с 6 дисками, состоящем из 2TB-дисков, ваш теоретический риск неисправимой ошибки чтения во время одной из перестроек находится на уровне 58% (согласно моей математике на салфетке; пожалуйста, сделайте свое и сравните примечания). Другими словами: ваша «превентивная» замена диска, по сути, не что иное, как акт саботажа.

Единственный раз, когда я рассмотрю, как обновить диски на старом сервере, будет в процессе «восстановления» его, например. после того, как был снят с эксплуатации из одной задачи и перед тем, как вернуть ее в эксплуатацию с новой ролью. Даже в этот момент требования к пропускной способности и производительности будут гораздо важнее, чем возраст дисков.


13
2017-12-19 19:29



+1 для запуска перестройки - gregmac
Не могли бы вы объяснить, почему риск составляет 58%? Если диск регулярно патрулируется, то почему это вызвало бы большее восстановление? - Mircea Vutcovici
@MirceaVutcovici, потому что в конфигурации RAID-5 все диски будут постоянно активны во время перестройки по сравнению с случайным случайным поиском здесь или там. Другими словами, «нагрузка» на все диски идет вверх, и при этом ваш риск запуска второго отказавшего диска также увеличивается. - Avery Payne
@Avery Payne Я знаю, что вы больше подчеркиваете диски во время восстановления. Я пытаюсь понять, почему перестройка будет подчеркивать диски больше, чем проверка согласованности. - Mircea Vutcovici
@MirceaVutcovici точной цифры (и как это сделать математику) спорно, но в нижней строке вы должны прочитать 10 терабайт данных шесть раз, без использования диска четности для исправления любых ошибок чтения, чтобы выполнить шесть перестроек. Вероятность чтения 60 терабайт данных, без каких-либо ошибок, не в вашу пользу. - Skyhawk


Я этого не видел. Мы сохраняем серверы под гарантии до тех пор, пока они не будут сняты с производства - 5 лет. Стандартный RAID 5 позволяет вам выжить из-за сбоя диска, поэтому мы просто держим пару дисков в руке, чтобы мы могли сразу начать перестройку и на критических серверах, мы включили hotspare или перейдем на RAID 10.

Если вы заметили, что несколько последних сбоев на сервере не работают недавно, у вас может возникнуть проблема с объединительной шиной. Могут возникнуть новые вибрации или пыль из соседней конструкции.


3
2017-12-19 19:23



Это не совсем правда. если большое количество ваших дисков связано с одним и тем же лотом, вы подвергаетесь значительно более высокому риску одновременного отказа при добавлении стресса перестройки. Как отмечалось в другом ответе, увеличение размеров диаграммы 5 приводит к увеличению вероятности URE при перестройке, которая берет ваш массив ниже порога достоверности raid5. - Magellan