Вопрос: Как мне записывать на жестких дисках?


Google сделал очень тщательное изучение на сбоях на жестком диске, которые обнаружили, что значительная часть жестких дисков выходит из строя в течение первых 3 месяцев интенсивного использования.

Мои коллеги и я думаем, что мы можем реализовать процесс записи на всех наших новых жестких дисках, что потенциально может свести нас к страданиям от потери времени на новых, непроверенных дисках. Но прежде чем мы начнем процесс ожога, мы хотели бы получить представление о других, кто более опытен:

  • Насколько важно записывать на жесткий диск, прежде чем вы начнете его использовать?
  • Как вы реализуете процесс записи?
    • Как долго вы жжете на жестком диске?
    • Какое программное обеспечение вы используете для записи на дисках?
  • Сколько стрессов слишком много для процесса сжигания?

РЕДАКТИРОВАТЬ: Из-за характера бизнеса, RAID-массивы невозможно использовать большую часть времени. Мы должны полагаться на отдельные диски, которые часто отправляются по всей стране. Мы как можно скорее создаем резервные копии дисков, но мы все еще сталкиваемся с провалом здесь и там, прежде чем мы получим возможность резервного копирования данных.

ОБНОВИТЬ

В настоящее время моя компания внедрила процесс обжига, и это оказалось чрезвычайно полезным. Мы немедленно записываем все новые диски, которые мы получаем на складе, что позволяет нам найти много ошибок до истечения срока гарантии и перед их установкой в ​​новые компьютерные системы. Было также полезно проверить, что диск портился. Когда один из наших компьютеров начинает сталкиваться с ошибками, а главный жесткий диск является основным подозреваемым, мы перезапустим процесс записи на этом диске и рассмотрим любые ошибки, чтобы убедиться, что на самом деле проблема была перед запуском процесса RMA или метанием это в мусор.

Наш процесс сжигания прост. У нас есть назначенная система Ubuntu с большим количеством портов SATA, и мы запускаем badblocks в режиме чтения / записи с 4 проходами на каждом диске. Чтобы упростить ситуацию, мы написали сценарий, который выводит предупреждение «ДАННЫЕ БУДУТ УДАЛЕНЫ ОТ ВСЕХ ВАШИХ ДРАЙВОВ», а затем запускает badblocks на каждом диске, кроме системного диска.


39
2017-09-07 20:05


Источник


Любопытно, почему вы отправляете сообщения по всей стране? Похоже, что вы с большей вероятностью столкнетесь с сбоем диска в результате отказа от шока и общего неправильного обращения с почтовой службой, чем по причинам, которые обнаружит ожог. - Paperjam
@Lie Ryan: Оборудование для хранения почты по-прежнему является самым быстрым способом передачи данных. Интернет очень медленный, и если вам нужно пройти через институциональные сети и брандмауэры, это становится еще хуже. - Jonas
@Lie Ryan: Если вы имеете дело с государственными секретными данными, SSH не будет делать, В общем, компьютер, содержащий эти данные, может не подключаться к общедоступному Интернету. Если у вас есть гигабайты классифицированных данных для передачи, отправка поширенного диска является наиболее эффективным вариантом. - benzado
@Lie Ryan: Конечно. Даже при очень быстром подключении к Интернету вам потребуется месяц, чтобы доставить 7TB (и это, если у вас есть роскошь иметь контроль над вашей и пропускной способностью получателя). С UPS, 7TB есть на следующий день. - Jonas
Это хорошо и все, кроме случаев, когда у вас есть мобильные команды на дороге, собирающие огромные объемы данных. Это означает, что вам приходится полагаться на гостиничные или мобильные интернет-соединения, и вы никогда не находитесь в одном месте более 8 часов. - Phil


Ответы:


Насколько важно записывать на жесткий диск, прежде чем вы начнете его использовать?

Если у вас хорошая резервная копия и хорошие системы высокой доступности, то не очень. Поскольку восстановление от сбоя должно быть довольно простым.

Как вы реализуете процесс записи?   Какое программное обеспечение вы используете для записи на дисках?   Сколько стрессов слишком много для процесса сжигания?

Я обычно буду запускать badblocks против диска или новой системы, когда я получу его. Я буду запускать его каждый раз, когда я воскрешу компьютер из кучи запасных частей. Такая команда (badblocks -c 2048 -sw /dev/sde) будет записывать каждый блок по 4 раза каждый раз с другим шаблоном (0xaa, 0x55, 0xff, 0x00). Этот тест не делает ничего, чтобы проверять множество случайных чтений / записей, но он должен доказать, что каждый блок также может быть написан и прочитан.

Вы также можете запустить Bonnie ++, или IOMeter которые являются инструментами бенчмаркинга. Они должны попытаться немного подчеркнуть ваши диски. Приводы не должны терпеть неудачу, даже если вы попытаетесь максимизировать их. Поэтому вы можете попытаться понять, что они могут сделать. Я этого не делаю. Получение контрольного показателя ввода-вывода вашей системы хранения прямо на момент установки / установки может быть очень полезным в будущем, когда вы смотрите на проблемы с производительностью.

Как долго вы жжете на жестком диске?

На мой взгляд, достаточно одного запуска badblocks, но я считаю, что у меня очень сильная система резервного копирования, и мои потребности в HA не так высоки. Я могу позволить себе некоторое время простоя, чтобы восстановить обслуживание на большинстве систем, которые я поддерживаю. Если вы так беспокоитесь, что, по вашему мнению, может потребоваться многопроходная настройка, тогда вы, вероятно, должны иметь RAID, хорошие резервные копии и хорошую настройку HA.

Если я в спешке, я могу пропустить ожог. Мои резервные копии и RAID должны быть в порядке.


34
2017-09-07 20:28





IMNSHO, вы не должны полагаться на процесс записи, чтобы отсеять плохие диски и «защитить» ваши данные. Разработка этой процедуры и ее реализация потребуют времени, которое может быть лучше использовано в других местах, и даже если диск переходит в режим записи, он может провалиться через несколько месяцев.

Вы должны использовать RAID и резервные копии для защиты ваших данных. Как только это будет на месте, пусть это беспокоится о дисках. Хорошие RAID-контроллеры и подсистемы хранения будут иметь «очищающие» процессы, которые будут обрабатывать данные так часто и гарантировать, что все будет хорошо.

После того, как все об этом позаботится, нет необходимости делать чистку диска, хотя, как отмечали другие, не нужно делать тест загрузки системы, чтобы убедиться, что все работает так, как вы ожидаете. Я бы не стал беспокоиться о отдельных дисках.


Как уже упоминалось в комментариях, использование жестких дисков для вашего конкретного случая использования не имеет большого смысла. Доставка их вокруг гораздо более вероятно приведет к ошибкам данных, которых не будет, когда вы заработаете.

Лента-носитель предназначен для доставки. Вы можете получить сжатие 250 Мбит / с (или до 650 Мбит / с) с одним приводом IBM TS1140, который должен быть быстрее вашего жесткого диска. И еще больше - один картридж может дать вам до 4 ТБ (несжатый).

Если вы не хотите использовать ленту, используйте SSD. Их можно обрабатывать намного грубее, чем жесткие диски, и удовлетворить все требования, которые вы указали до сих пор.


В конце концов, вот мои ответы на ваши вопросы:

  • Насколько важно записывать на жесткий диск, прежде чем вы начнете его использовать?
    Не за что.
  • Как вы реализуете процесс записи?
    • Как долго вы жжете на жестком диске?
      Один или два пробега.
    • Какое программное обеспечение вы используете для записи на дисках?
      Простой запуск, скажем, shred а также badblocks Сделаю. Затем проверьте данные SMART.
  • Сколько стрессов слишком много для процесса сжигания?
    Никакого стресса слишком много. Вы должны иметь возможность бросать что-либо на диск без его взрыва.

48
2017-09-07 20:21



Мое единственное сожаление по поводу этого сообщения заключается в том, что я могу только его перенести. @Phil, вы изобретаете колесо там. Способ гарантировать, что вы не потеряете данные на случайном диске (или других связанных с ним аппаратных) сбоях, - это резервные копии и массивы RAID. - Rob Moir
Я согласен, что вы не должны полагаться на него, но при запуске проверки системы перед тем, как она будет запущена в производство, я идентифицировал потенциальную проблему для меня пару раз. Если вы не находитесь в огромной спешке, позволяя компьютеру сканировать себя на день или два, обычно это не повредит. - Zoredache
Этот ответ имеет самые высокие голоса, но больше не ответил на этот вопрос. OP заявила, что RAID-массивы невозможны. Если «единичные диски отправляются по всей стране», то рейд не может быть построен. Процесс резервного копирования на месте, но, похоже, OP хочет найти что-нибудь и все, что поможет сэкономить время, если диск пойдет не так. (Примечание: я работаю в той же компании, что и OP, поэтому я знаю ситуацию, данные копируются в RAID после ее доставки). Если вы хотите записывать диски, гипотетически, как бы вы это сделали? - jsmith
В этом случае вопрос должен содержать этот контекст. Из того, что вы говорите, должен быть вопрос: «Нам нужно отправлять жесткие диски через почту / фрахт улитки. Как мы должны провести тест на сжигание перед отправкой, чтобы минимизировать сбои?» Как ни странно, ответ не меняется. Отправьте пару дисков! Или лучше, используйте ленты. Ленты предназначенный для использования таким образом, жесткие диски не являются. Дополнительная информация приводит к другому ответу. - MikeyB
Ленты не могут записывать данные так же быстро, как жесткие диски? 250MBps (несжатый) недостаточно для вас? Я бы сказал, что процесс ожога на самом деле не поможет защитить от сбоев в вашем случае использования. - MikeyB


Учитывая ваше разъяснение, это не похоже на то, что любой процесс записи будет полезен вам. Приводы не срабатывают в основном из-за механических факторов, как правило, тепла и вибрации; не из-за какой-то скрытой бомбы замедленного действия. Процесс «сжигания» проверяет среду установки так же, как и все остальное. Как только вы переместите вещь, вы вернетесь туда, где вы начали.

Но вот несколько указателей, которые могут вам помочь:

Приводы для ноутбуков, как правило, предназначены для того, чтобы выдерживать более толкание и вибрацию, чем настольные диски. По этой причине мои друзья, которые работают в магазинах восстановления данных, всегда отправляют данные клиентам на ноутбуках. Я никогда не тестировал этот факт, но, похоже, это «общее знание» в отдельных отраслях.

Флеш-накопители (например, USB-накопители) являются наиболее ударопрочными для любого носителя, который вы найдете. Еще менее вероятно, что вы потеряете данные в пути, если используете флэш-носители.

Если вы отправляете диск Winchester, выполните сканирование поверхности, прежде чем использовать его. Или еще лучше, просто не использовать его. Вместо этого вы можете назначить определенные диски в качестве «отгрузочных» дисков, которые видят все злоупотребления, но на которые вы не полагаетесь на целостность данных. (I.e .: скопируйте данные на диск для отправки, скопируйте после отправки, очень контрольные суммы с обеих сторон, что-то типа).


7
2017-09-08 01:12



«Как только вы переместите вещь, вы вернетесь туда, где вы начали». - не правда. так выглядит график MTTF для диска: cs.cmu.edu/~bianca/fast/img13.png  cs.ucla.edu/classes/spring09/cs111/scribe/16/... тестирование в раннем периоде может отфильтровывать множество проблемных дисков, производители действительно делают эти стресс-тесты, чтобы сделать более надежный продукт, но, конечно, экономически не проводить тест до тех пор, пока график не сгорит. - Karoly Horvath
@yi_H: Я думаю, что tylerl подразумевает, что, вероятно, причина ранней неудачи связана с самим процессом доставки (что неправдоподобно, я бы хотел увидеть график, отображающий отказ диска и частоту рассылки), поэтому, если вы отправляете жесткий диск по всей стране, MTTF будет сброшен; поэтому, если вы отправляете по почте диск каждые три месяца, вы всегда находитесь в зоне раннего отказа. - Lie Ryan


Я не согласен со всеми ответами, которые в основном говорят: «Не утруждайтесь пригоранием, имеете хорошие резервные копии».

В то время как у вас всегда есть резервные копии, вчера я провел 9 часов (в дополнение к обычной 10-часовой смене), восстанавливаясь из резервных копий, потому что система работала с дисками, которые не были сожжены.

В конфигурации RAIDZ2 было 6 дисков (эквивалент ZFS для RAID-6), и у нас было 3 диска, которые погибли в течение 18 часов на ящике, который работал около 45 дней.

Лучшее решение, которое я нашел, - это приобрести диски от одного конкретного производителя (не смешивать и сопоставлять), а затем запустить их предоставленный инструмент для работы с дисками.

В нашем случае мы покупаем Western Digital и используем диагностику дисков на основе DOS из загрузочного ISO. Мы запускаем его, запускаем опцию для записи случайного мусора на весь диск, затем запускаем короткий тест SMART, а затем долгий SMART-тест. Этого обычно достаточно, чтобы отсеять все плохие сектора, перераспределять чтение и запись и т. Д. ...

Я все еще пытаюсь найти достойный способ «пакет», чтобы я мог запускать его на 8 дисков за раз. Может просто использовать «dd if = / dev / urandom of = / dev / whatever» в Linux или «badblocks».

EDIT: Я нашел более удобный способ «пакет». Наконец, я решил настроить загрузочный сервер PXE в нашей сети для решения конкретной проблемы и заметил, что загрузочный диск Ultimate Boot может быть загружен PXE. Теперь у нас есть несколько неработающих машин, которые могут быть загружены PXE для запуска диагностики диска.


5
2018-05-23 22:20



Что ты знаешь? Ответ, который отвечает на вопрос и не проповедует на ОП. +1 - elBradford
Если вы хотите, чтобы случайные данные записывались на диск, не читайте / dev / urandom; это не так медленно, как его блокирующий кузен / dev / random, но он все еще медленный, и он на самом деле ничего не дает вам. Вместо этого настройте обычное сопоставление dm-crypt со случайным ключом (который вы можете получить из / dev / urandom или / dev / random), а затем просто dd / dev / zero в отображаемое устройство. Вероятно, он будет где-то в два раза быстрее и на порядок быстрее. gitlab.com/cryptsetup/cryptsetup/wikis/FrequentlyAskedQuestions «Как я могу стереть устройство с крипторазрядной случайностью?» есть пример того, как это сделать. - Michael Kjörling
Отличное предложение @ MichaelKjörling - Aaron C. de Bruyn


Ваш процесс неправильный. Вы должны использовать RAID-массивы. Там, где я работаю, мы создали массивы рейдов, которые предназначены для перевозки. Это не ракетостроение. Ударный монтаж приводов в больших шкафах с большими резиновыми виброизоляторами значительно повысит надежность. (Накопители Seagate созвездий) являются примером, рассчитанным на удар 300G, но только с вибрацией 2G, не работающей: поэтому корпус для транспортировки должен вибрировать, изолируя привод. http://www.novibes.com/Products&productID=62 или http://www.novibes.com/Products&productId=49 [часть № 50178])

Тем не менее, вы действительно хотите сжечь на тестовых жестких дисках, вот так.

Я работал над системами, такими как жесткие диски, и записывал в некоторых проблемах, но ...

Для ускоренного тестирования ПХД для выявления неисправностей ничто не сравнится с циклами «горячая / холодная». (работающие горячие циклы работают еще лучше ... но вам труднее работать, особенно с банками HDD)

Получите себе окружение окружающей среды большое количество за количество дисков, которые вы приобретаете за один раз. (Это довольно дорого, было бы дешевле отправлять массивы рейдов). Вы не можете сэкономить на тестовых камерах, вам понадобятся контроль влажности и программируемые пандусы.

Программа в двух повторяющихся температурных рампах, вплоть до минимальной температуры хранения, вплоть до максимальной температуры хранения, делает рампы достаточно крутыми, чтобы нарушить работу инженера-приложения от производителя жестких дисков. 3 холодных цикла в течение 12 часов должны видеть, что диски не работают довольно быстро. Запускайте диски как минимум на 12 часов. Если после какой-то работы я буду удивлен.

Я не думал об этом: в одном месте, которое я работал, у нас был инженер по производству, он сделал это, чтобы получить больше продуктов, поставляемых с одним и тем же испытательным оборудованием, произошел огромный всплеск ошибок в тесте, но мертвые по прибытии упали практически до нуль.


4
2017-09-08 01:13





Насколько важно записывать на жесткий диск, прежде чем вы начнете его использовать?

Это зависит.
Если вы используете его в RAID, который обеспечивает избыточность (1, 5, 6, 10)? Не очень.
Если вы используете его standaolone? Немного, но вам лучше просто запустить smartd или что-то, чтобы контролировать его, по крайней мере, на мой взгляд.

Это, естественно, приводит к моему ответу на "Как вы реализуете процесс записи?" -- Я не.
Вместо того, чтобы пытаться «сжигать» диски, я запускаю их в избыточных парах и использую интеллектуальный мониторинг (например, SMART), чтобы сказать мне, когда диск становится неуклюжим. Я обнаружил, что дополнительное время, необходимое для полного окунания (реально реализующего весь диск), значительно дороже, чем устранение неисправности диска и свопа.
Объединяя RAID и хорошие резервные копии, ваши данные должны быть очень безопасными даже при работе с младенческой смертностью (или с другим концом излечения ванны, когда вы начинаете с дисков умирать от старости)


3
2017-09-07 20:25



Что делать, если диск нельзя контролировать, потому что он находится не в одном постоянном месте? :) - jsmith
@jsmith - тогда у вас есть он, отправляющий вам уведомления, а не опрос его с хоста мониторинга - практически нет ситуаций, когда вы действительно не может контролировать что-то, есть только те, которые требуют небольшого творческого мышления :) - voretaq7


Spinrite (grc.com) будет считывать и записывать все данные на диске. Это хорошая вещь для нового диска, даже если вы не пытаетесь заставить его потерпеть неудачу. Это займет много времени, чтобы работать на уровне 4, обычно пару дней для дисков текущего размера. Я также должен добавить, что он неразрушающий. Фактически, если у него есть данные в плохих точках, он будет перемещаться и восстанавливать его. Конечно, вы никогда не запустили его на SSD.


2
2017-09-07 22:33





Я уверен, что тестирование производительности и проверка ошибок в режиме «один раз в неделю» будет достаточным для «горящих» жестких дисков. Хотя с вашего поста я никогда не слышал об этом.

Цитата из «6_6_6» на Stroagereview.com

1. Connect the drive to a running system. Read SMART values.

2. Do a SMART short self test. Do a SMART long self-test.

3. Zero fill / Wipe the drive with the manufacturer's utility. Entire drive.

4. Run HDTach full read/write. Everest / Sandra, etc all have stress tests. Run hard drive part continously for hours.

5. Run Victoria for Windows Read/Write test and make sure no slow sectors.

6. Drop to DOS. Run MHDD, run a LBA test and see check for slow sectors. Run Read/Write/Verify test. Run drive internal ATA secure erase command.

7. Do a full format.

8. Compare SMART values. If no anomalies, all good to go. Install your OS and continue.

В целом, я лично считаю, что это плохая идея.

EDIT: Источник: http://forums.storagereview.com/index.php/topic/27398-new-hdd-burn-in-routines/


1
2017-09-07 20:10





Во-первых, я согласен с другими плакатами в том, что ваш вариант использования предполагает, что ленточные накопители станут лучшим вариантом.

Если это невозможно, если вам нужно управлять приводом по всей стране, настоящий RAID, похоже, не является вариантом, так как вам придется переносить еще много дисков, увеличивая риск сбоя. Однако, как насчет простой схемы зеркалирования, отправки одного диска и сохранения другого на исходном сайте?

Затем, если диск не сработает по прибытии, можно создать и отправить новую копию. Если диск хорош по прибытии, запасной может быть повторно использован - либо для отправки, либо для резервного копирования исходных данных.


0
2017-09-08 10:26





Вы действительно не говорили, почему диски отправляются - это всего лишь способ отправки данных, у них есть готовые приложения / изображения ОС, готовые для загрузки на ПК или что-то еще?

Я согласен с другими ответами, что RAID или резервные копии лучше, чем сканирование, из-за опасности доставки накопителя, вызывающего механические проблемы.

Более общий способ для этого: «полагаться на избыточные данные, чтобы ловить и исправлять ошибки» - либо отправлять 2 диска для каждого набора данных, либо отправлять избыточные данные на одном диске. Что-то вроде Parchive позволяет добавить определенный уровень избыточности к данным, что позволяет восстанавливать, даже если большая часть данных повреждена. Поскольку в наши дни диски довольно дешевы, просто покупка большего диска, чем требуется, будет часто дешевле, чем сканирование диска, отправка сменного накопителя или доставка 2 дисков.

Это защитит от некатастрофических сбоев накопителя - однако лучше всего не использовать повторно загруженный накопитель, за исключением доставки, как было предложено ранее, т.е. рассматривать его как ленту, которая должна быть извлечена на «настоящий» накопитель, который постоянно установлен и не отправлен нигде.

Это должно позволить вам отправлять большой объем данных (или даже изображения приложений / ОС) и уменьшать влияние ошибок диска на любой уровень экономического.


0
2017-09-08 11:18