Вопрос: Что такое барабан ECC и почему он лучше?


Я видел разницу в использовании ECC-сервера на серверах. Почему это лучше?


30
2018-05-07 16:34


Источник


Вопрос ответил на другой вопрос: serverfault.com/questions/5817/... - sh-beta
Есть ли какие-либо доказательства того, что память ECC необходима или выгодна для использования? Преимущества и механизм действия легко понять, но я никогда не слышал доказательств, подтверждающих его использование. - Drew Stephens
И каковы различные возможные последствия от таких ошибок памяти (бит)? Например, я только что отключил сервер, который был онлайн в течение 5 лет без остановок (с ECC-баром), и в целом все прошло хорошо, у меня никогда не было жалоб от клиентов, которые принимали там или когда-либо испытывали серьезные ошибка с ним ... То же самое с моим настольным компьютером - BSOD здесь и там довольно редко, но это все? :) - Denis Volovik
@Denis, я думаю, если вы хотите, чтобы люди ответили на ваш вопрос, вам может потребоваться задать его как отдельный вопрос, а не комментарий. - Toby Allen


Ответы:


ОЗУ ECC может восстанавливаться с небольших ошибок в битах, используя бит четности. Поскольку серверы являются общим ресурсом, в котором важны время безотказной работы и надежность, ECC RAM обычно используется с незначительной разницей в цене. ОЗУ ECC также используется в рабочих станциях CAD / CAM, поскольку небольшие ошибки могут привести к ошибкам расчета, которые становятся более значительными проблемами при проектировании.


28
2018-05-07 16:46



Небольшая ошибка в номере в любом месте, в том числе чей-то пакет финансирования малого бизнеса может быть очень маленьким или очень большой. Все зависит от того, какой бит. - Zan Lynx
Добавьте к этому тот факт, что неправильная ошибка в неподходящем месте может сбить намного больше, чем один компьютер, когда вы виртуализировали для консолидации. - MikeyB
Я просто жду, когда недобросовестная компания заявит, что их мошенничество в бухгалтерском учете было на самом деле просто ошибкой. - Eloff


Отличное исследование в реальном мире:

Ошибки DRAM в дикой природе: крупномасштабное полевое исследование (PDF)

В этом документе представлено первое крупномасштабное исследование DRAM   ошибки памяти в поле. Он основан на собранных данных   от серверного флота Google в течение более чем двух   лет, составляющих много миллионов дней DIMM. DRAM   в нашем исследовании рассматриваются несколько поставщиков, плотность DRAM и   технологий (DDR1, DDR2 и FBDIMM).

В документе рассматриваются следующие вопросы: Насколько совместимы ошибки памяти на практике? Каковы их статистические свойства? Как они влияют на внешние факторы, такие как температура и использование системы? И как они варьируются в зависимости от конкретных факторов, таких как плотность чипов, технология памяти и возраст DIMM?

Мы обнаруживаем, что во многих аспектах ошибки DRAM в области ведут себя совсем по-другому, чем принято считать. Например, мы наблюдаем частоты ошибок DRAM, которые на порядки   выше, чем сообщалось ранее, с тарифами FIT (неудачи во времени на миллиард часов устройства) от 25 000 до 70 000 на Мбит и более 8% DIMM, затронутых в год. Мы убедительно доказываем, что в ошибках памяти преобладают жесткие ошибки, а не мягкие ошибки, на которые основное внимание уделяется большинству предыдущих работ. Мы обнаружили, что из всех факторов, влияющих на поведение ошибки DIMM в поле, температура имеет удивительно малый эффект. Наконец, в отличие от обычных опасений, мы не наблюдаем никаких признаков того, что частота ошибок по модулю DIMM увеличивается с новыми поколениями модулей DIMM.

Интересно, что большинство ошибок памяти были жесткими ошибками памяти, которые невосстанавливаются, что означает, что память должна быть физически заменен как неудачный, тогда как ошибки мягкой памяти могут быть исправлены путем перезаписи памяти с правильным значением. Это указывает на то, что значение ECC довольно ограничено.

Существует два типа ошибок, которые обычно могут возникать в системе памяти. Первая называется повторяемой или жесткой ошибкой. В этой ситуации часть аппаратного обеспечения сломана и будет последовательно возвращать неверные результаты. Немного может застрять так, чтобы он всегда возвращал «0», например, независимо от того, что ему написано. Жесткие ошибки обычно указывают на свободные модули памяти, выдутые чипы, дефекты материнской платы или другие физические проблемы. Их относительно легко диагностировать и исправлять, поскольку они являются последовательными и повторяемыми.

Похоже, что все серверы в исследовании использовали ECC, хотя мы не можем знать коэффициенты ошибок ECC и non-ECC.

В этой статье изучалась частота и характеристики   Ошибки DRAM в большом парке товарных серверов. наш   исследование основано на данных, собранных более чем на 2 года и   охватывает DIMM нескольких поставщиков, поколений, технологий и возможностей. Все модули DIMM были оснащены ошибкой   (ECC) для исправления, по меньшей мере, однократных ошибок.


29
2017-08-20 11:24



+1 хороший отчет. Пока я не знать частота ошибок, не относящихся к ECC, I оценитьчто частота ошибок, не относящихся к ECC, примерно такая же, как и частота ошибок ECC на каждый GB. Те же чипы RAM используются как в ECC, так и в модулях DIMM без ECC (модули ECM DIMM просто используют 9/8 столько чипов - 72 необработанных бита памяти для хранения 64-битного слова данных, а 8/9 - коэффициент ошибок примерно такая же частота ошибок), и я не вижу причин, по которым чип RAM имел бы значительно различную частоту ошибок при размещении на модуле ECC DIMM и при размещении на модуле DIMM, отличном от ECC. - David Cary


ECC имеет несколько преимуществ перед паритетом. Во-первых, он может обнаруживать и восстанавливать однобитовые ошибки и делать это без остановки всей системы. Ошибки с несколькими битами все равно возвращают ошибку четности, но шансы этого происшествия являются астрономически низкими во время жизни ПК, если сама память не является дефектной. ECC похож на автострахование: он охватывает вас для большинства вещей, которые могут пойти не так, но это не может предотвратить многоуровневое нагромождение.

подробнее здесь: Память ECC: требуется для серверов, а не для настольных ПК


9
2018-05-07 16:45



Я не согласен с этой статьей. Я думаю, что каждый должен использовать ECC. Я не собирался сдаваться, но я хотел получить новый Core I7, который я, наконец, сделал. Тем не менее, я уверен, что мои 6 ГБ оперативной памяти собирают ошибки повсюду. - Zan Lynx
@zan и эти ошибки, о которых вы «уверены», какие последствия у них есть? - Jeff Atwood
Не угадывайте; исправляемые ошибки должны быть полезны для MCE, которые могут быть зарегистрированы в ОС (системный журнал в Windows, / var / log / mcelog в Linux) - MikeyB
@JeffAtwood: Ничего обычно, но у меня был случайный синий экран без видимых причин. В системах у меня есть делать у ECC я буду видеть пару одиночных бит-ошибок каждый месяц. - Zan Lynx
@JeffAtwood: И, как и все, я уверен, мне иногда приходилось переустанавливать приложение (Office. Visual Studio.), Потому что оно, судя по всему, сошло с ума. Ошибка приложения или ошибка ECC, вызывающая поврежденный файл на диске? Кто знает, если у вас нет ECC? - Zan Lynx


Чтобы сделать вещи простыми, цитируя Википедия:

Электрические или магнитные помехи внутри компьютерной системы могут привести к тому, что один бит DRAM спонтанно перевернется в противоположное состояние. Первоначально предполагалось, что это в основном связано с альфа-частицами, испускаемыми загрязняющими веществами в чип-упаковочном материале, но исследование [5] показало, что большинство одноразовых («мягких») ошибок в чипах DRAM происходят в результате фонового излучения
  ...
  Эту проблему можно смягчить, используя модули DRAM, которые включают дополнительные биты памяти и контроллеры памяти, которые используют эти биты. Эти дополнительные биты используются для записи четности или для использования кода с исправлением ошибок


5
2018-05-07 16:39