Вопрос: ZFS - Влияние отказа устройства кэша L2ARC (Nexenta)


у меня есть Сервер HP ProLiant DL380 G7, работающий как блок хранения NexentaStor, Сервер имеет 36 ГБ оперативной памяти, 2 контроллера LSI 9211-8i SAS (без расширителей SAS), 2 системных диска SAS, 12 SAS-накопителей данных, диск с горячим резервом, кэш-память L2ARC Intel X25-M и ускоритель DDRdrive PCI ZIL. Эта система обслуживает NFS для нескольких узлов VMWare. У меня также есть около 90-100 ГБ дедуплицированных данных в массиве.

У меня было два инцидента, когда производительность резко затормозилась, оставив гостей VM и Nexenta SSH / Web-консолей недоступными и потребовав полной перезагрузки массива для восстановления функциональности. В обоих случаях это был Intel X-25M L2ARC SSD, который потерпел неудачу или был «отключен». NexentaStor не смог предупредить меня о сбое кэша, однако общее предупреждение ZFS FMA было видно на экране консоли (не отвечает).

enter image description here

zpool status выход показал:

  pool: vol1
 state: ONLINE
 scan: scrub repaired 0 in 0h57m with 0 errors on Sat May 21 05:57:27 2011
config:

        NAME                        STATE     READ WRITE CKSUM
        vol1                        ONLINE       0     0     0
          mirror-0                  ONLINE       0     0     0
            c8t5000C50031B94409d0   ONLINE       0     0     0
            c9t5000C50031BBFE25d0   ONLINE       0     0     0
          mirror-1                  ONLINE       0     0     0
            c10t5000C50031D158FDd0  ONLINE       0     0     0
            c11t5000C5002C823045d0  ONLINE       0     0     0
          mirror-2                  ONLINE       0     0     0
            c12t5000C50031D91AD1d0  ONLINE       0     0     0
            c2t5000C50031D911B9d0   ONLINE       0     0     0
          mirror-3                  ONLINE       0     0     0
            c13t5000C50031BC293Dd0  ONLINE       0     0     0
            c14t5000C50031BD208Dd0  ONLINE       0     0     0
          mirror-4                  ONLINE       0     0     0
            c15t5000C50031BBF6F5d0  ONLINE       0     0     0
            c16t5000C50031D8CFADd0  ONLINE       0     0     0
          mirror-5                  ONLINE       0     0     0
            c17t5000C50031BC0E01d0  ONLINE       0     0     0
            c18t5000C5002C7CCE41d0  ONLINE       0     0     0
        logs
          c19t0d0                   ONLINE       0     0     0
        cache
          c6t5001517959467B45d0     FAULTED      2   542     0  too many errors
        spares
          c7t5000C50031CB43D9d0     AVAIL   

errors: No known data errors

Это не вызывало никаких предупреждений из Nexenta.

У меня создалось впечатление, что отказ L2ARC не повлияет на систему. Но в этом случае он наверняка был виновником. Я никогда не видел никаких рекомендаций для RAID L2ARC. Удаление плохого SSD целиком с сервера заставило меня работать, но меня беспокоит влияние отказа устройства (и, возможно, отсутствие уведомления от NexentaStor).

редактировать - Что такое текущий лучший выбор SSD для приложений кэша L2ARC в эти дни?


10
2018-06-07 19:06


Источник


Возможно ли, что на вашем SSD или SATA-порту возникают проблемы с оборудованием? - tegbains
Это объединительная плата HP SAS. Я никогда не видел ни одного сбоя или проблем во многих (Linux) развертываниях, но я уверен, что отказ является функцией SSD класса потребительского обслуживания. Я могу принять отказ, но проблема с остальными дисками и общей системой хранения - большая проблема. - ewwhite
Примечательно, что Pogo Linux (который, как я понимаю, является крупнейшим интегратором / реселлером Nexenta) больше не предлагает устройства Intel X25 в качестве опции для L2ARC или ZIL из-за проблем с более поздними версиями прошивки Intel. - Skyhawk
И рекомендуемая замена (марка, модель, цена)? - ewwhite
Кстати, новая серия Intel 320 может быть интересной для использования в качестве устройства L2ARC или даже ZIL: оно защищено конденсатором, и хотя выдержка на запись ограничена (до 60 терабайт в зависимости от модели), оставшийся процент износа может отслеживаться с использованием атрибута SMART E9 (начинается с 100 и отсчитывается до 1). Я подозреваю, что многие пользователи ZFS могли заменять это устройство так часто, как это было необходимо, чтобы предотвратить приближение E9 к 1, без совокупного расхода, когда-либо даже приближающегося к стоимости компакт-диска SLC с соответствующим размером. - Skyhawk


Ответы:


ZFS не использует дисковый ввод-вывод, драйверы устройств ниже ZFS делают дисковый ввод-вывод. Если устройство не отвечает своевременно или, как в этом случае, нарушает все другие устройства на расширителе, то оно не отображается как отказ ZFS. Все ZFS видит медленный ввод-вывод.

В прошивке Intel X-25M есть ошибка, которая влияет на их поведение при тяжелых нагрузках и может вызвать сброс бурь. Эта проблема затрагивает все ОС и не может быть решена на уровне ОС. Обратитесь к поставщику оборудования за исправлениями или исправлениями.

Если ожидается, что чтение будет удовлетворено L2ARC, тогда будет прочитано чтение. ZFS затем использует драйверы нижнего уровня для сообщения об ошибке. В этом случае накопитель продолжает сбрасывать и повторять попытку за 5 минут до объявления отказа ввода-вывода в зависимости от настроек драйвера, устройства и времени ожидания по умолчанию. Только после того, как драйверы нижнего уровня объявят об ошибке ввода-вывода, ZFS повторит попытку в пуле.

NexentaStor для проверки объема и проверки диска ищет дополнительные сообщения об ошибках и предупреждает вас по электронной почте и регистрации ошибок. В версии 3.1 был улучшен бегун для проверки диска, чтобы помочь вам специально указать условия, демонстрируемые сломанной прошивкой в ​​SSD.

Итог: ваше оборудование неисправно, и его необходимо будет исправить или заменить.


10
2018-06-12 19:40



Спасибо. Поэтому я больше не буду использовать Intel X-25. Я бы хотел проверить, рекомендовал ли новое устройство L2ARC SSD заменить его. - ewwhite


Вы подключаете SSD X25-M к объединительной панели? Известная проблема с Nexenta и доступ к L2ARC по объединительной панели. Лучше всего подключить SSD непосредственно к порту SATA на материнской плате. Убедитесь, что он настроен на использование AHCI.

Если на этом сервере выполняется какая-либо критически важная задача, я бы переключился на SSD SLC (например, X25-E или STEC SSD). Сказав это, вы, вероятно, будете в порядке с X25-M, если это не так.


3
2018-06-07 21:00



Да, я подключаюсь через обычный отсек. У меня есть другие установки с тем же процессором Intel SSD, что и L2ARC (в аппаратах Sun и HP). Однако этот конкретный человек дал мне проблемы. Мое исследование показало, что L2ARC не нужно быть таким же надежным, как ZIL (отсюда использование SLC и PCI-решений ZIL и потребительский диск для L2ARC). Это изменилось? - ewwhite
Я бы попытался подключить SSD непосредственно к материнской плате и посмотреть, работает ли это. Если у вас есть запасной рабочий X25-M, вы можете попробовать заменить текущий и посмотреть, плохо ли SSD. На SSD SLC: это зависит от вашего уровня риска. Если вы используете программное обеспечение на SLA, которое никогда не может опуститься и должно работать быстро, может быть дешевле купить твердотельный SSD. - zippy
Я пытаюсь сказать, что Intel X25-M был рекомендован для L2ARC в большинстве статей и обсуждений, которые я видел в Интернете. Если это уже не так, то какое устройство предпочтительнее? - ewwhite
@ewwhite: Теоретически отказ устройства L2ARC должен быть без разрушения, потому что ZFS может просто вернуться к чтению диска (очевидно, производительность будет хитом). На практике .. хорошо, похоже, что вы попали в ошибку ZFS или scsi драйвера, которая запускается с помощью поведения SSD. - Tom Shaw
@ewwhite: Вероятно, я должен дать вам несколько практических советов. Если вы хотите сгенерировать аварийный сбой системы в следующий раз, когда ваша система заклинит, выполните инструкции здесь, Такой тип дампа может быть полезен разработчикам Illumos. - Tom Shaw


Эд, есть несколько, которые вы можете использовать в диапазоне от относительно разумного по цене до довольно дорогостоящего. Я предпочитаю разворачивать SSD SSD во всех случаях и отлично справляюсь с STEC и Pliant. Оба теперь предлагают MLC-накопитель, на котором будет работать класс L2ARC. Еще не проверено, но в ближайшее время это SSD-предложение от Seagate, которое SLC SAS 2.0 и, по слухам, «не дорого». Будьте на связи....

-PB


0
2018-06-23 23:20