Вопрос: DRBD для сервера HA в вопросах малого офиса


Фон: Мы нуждаемся в сервере HA в небольшой офисной среде и смотрим на DRBD, чтобы обеспечить его. У нас только около 100 ГБ, которые должны быть на сервере HA, а загрузка сервера будет крайне низкой. Вероятно, данные будут увеличиваться примерно на 10-25% в год, если мы будем архивировать старые офисные данные и 50% -75% каждый год, если мы этого не сделаем.

Точка - мы используем сочетание потребительской марки и используемого аппаратного обеспечения класса предприятия, которое будет проблемой, если мы не будем превентивно планировать его; и предварительно построенные серверы качества DO терпят неудачу, поэтому избыточные серверы выглядят как способ.

План: Мы думаем, что было бы неплохо найти (2) лучших серверов, использующих bang-for-our-buck, и синхронизировать их. Нам просто нужны серверы, совместимые с SATA / SAS, и пространство для любого количества дисков, которые могут быть установлены по цене. Кажется, что эти серверы могут быть за $ 100-200 (+ некоторые части и дополнительные диски), если вы поймаете сделку.

Это теоретически означало бы, что сервер может потерпеть неудачу, и если бы мы потратили несколько дней, чтобы дойти до него, пока у нас не было другого случайного сбоя, все бы продолжалось гудеть, пока наш ИТ-отдел (я) не смог бы добраться до него. Мы будем использовать Debian в качестве ОС.

Некоторые вопросы

  1. (A) Как DRBD управляет сбоем привода или контроллера? То есть Эта показывает DRBD перед драйвером хранения, так что происходит, когда контроллер выходит из строя и записывает грязные данные или диск выходит из строя, но не сбой сразу? Являются ли данные зеркалированными на другом сервере или нет, и существует ли риск повреждения данных на серверах в таких случаях?

  2. (B) Каковы точки отказа для DRBD; что теоретически до тех пор, пока один сервер запущен и работает, проблем нет. Но мы знаем, что есть проблемы, и каковы режимы отказа с использованием DRBD, поскольку большинство из них теоретически должны быть программным обеспечением?

  3. Если у нас будет два сервера для этого, было бы разумно запускать VM на каждом с MYSQL и Apache для репликации базы данных и веб-сервера? (Я так полагаю)

  4. Является ли DRBD достаточно надежным? Если нет, то ненадежность, изолированная от определенных задач, или более случайная. Поиск привлек людей с различными проблемами, но это Интернет с, казалось бы, более плохая информация, чем хорошая.

  5. Если данные синхронизируются по локальной сети, использует ли DRBD двойную полосу пропускания? То есть, должны ли мы удвоиться на NICS и сделать некоторую агрегацию каналов и транкинг? Тогда, возможно, поместите их на отдельные маршрутизаторы на отдельных схемах и UPS в отдельных комнатах, и теперь у вас действительно есть избыточность!

  6. Это слишком сумасшедший для офиса с точки зрения управления сервером? Существует ли более простая альтернатива REALTIME (предоставленный DRBD кажется простым в теории).

У нас уже есть сервер. Таким образом, мне кажется, что второй USED-сервер с выделенным диском для DRBD можно легко получить за $ 150 - $ 250 с некоторыми умными покупками. Добавьте второй маршрутизатор, больше дисков, больше сетевых адаптеров (б / у) и (2) ИБП и разговаривали 1000 долларов +/-. Это относительно дешево! И я надеюсь, что это в основном купит нам время во время сбоя сервера. Ошибки дисков кажутся более легкими для работы с RAID в наши дни. Это другие аппаратные сбои, такие как контроллеры, память или источники питания, которые могут потребовать простоев для диагностики и устранения проблем.

Резервные серверы для нас означают, что используемое оборудование становится более жизнеспособным с большим временем и большей гибкостью для меня, чтобы исправить ситуацию, когда мое расписание позволяет vs, чтобы остановить все, чтобы восстановить сервер.

Надеюсь, я не пропустил, что у этих вопросов есть легко доступные для поиска ответы. Я сделал быстрый поиск и не нашел то, что искал.


7
2017-08-24 07:32


Источник


Вам не нужен «диск» на этих серверах. Вы хотите массив дисков, два из которых, по крайней мере, настроены как RAID1. - EEAA♦
@EEAA Что лучше, один диск на избыточных серверах или один сервер с RAID? Мы планируем RAID в конечном итоге в них для данных HA, но мы считаем избыточные серверы более надежными, чем RAID только на одном сервере. Вы не согласны? И хорошие резервные копии имеют приоритет над всем этим. - Damon


Ответы:


Во-первых, вам нужно определить, что вы действительно  означает «HA». На что вы защищаете, каковы издержки, связанные с отключением типа X и продолжительностью Y? Как это повлияет на вашу организацию? Какова ваша роль в этой организации и сколько стоит ваше время? Сколько времени Можно вы тратите на это? После этого вы должны решить, разрешают ли эти требования такое решение или вам нужно что-то еще.

Во-вторых: в моем мире предложения «Мне нужна HA» и «Я собираюсь купить дерьмовые серверы на 200 $», возможно, не подходят друг другу (на самом деле, для меня покупка подержанного дерьма и профессионального использования любого рода, t полностью совпадают).

В любом случае, ваши вопросы:

  1. Если вы пишете полностью новые данные блочному устройству DRBD, оно будет правильно написано на неполоманном контроллере. Это полностью прозрачный слой перед фактическими дисками, также как программный RAID или LVM. Однако, если у вас есть повреждение данных на основном узле из-за неисправности контроллеров или ошибок чтения с диска, это может легко распространиться на вторичный узел, поскольку операции записи часто являются циклами чтения-модификации-записи, и в этом случае блок поврежденные данные будут прочитаны на основном узле, и операция записи для этого блока будет отправлена ​​на оба узла. Это поднимает самый важный момент при использовании DRBD: То же, что и RAID, он никоим образом не заменяет хорошую и надежную резервную копию. 

  2. Я не понимаю, что вы имеете в виду здесь.

  3. При использовании виртуальных машин в настройке одного узла полезно, оно также будет в настройке с двумя узлами, и у вас будет преимущество возможной живой миграции, когда это будет сделано правильно.

  4. По моему опыту, да. Вы должны тщательно протестировать его в своей среде и потратить много времени на симуляцию различных состояний сбоев, которые система может испытывать, а также учиться и документировать, как их восстановить. Хотя он и надежен, DRBD не самовосстанавливается и требует хорошего понимания ситуации для восстановления после отказа.

  5. Вы действительно требуется выделенное соединение между узлами. В двухузловой установке это может быть точка-точка соединения без коммутатора или что-то еще. Все остальное может быть технически технически, но это просто вздор. В зависимости от вашего шаблона использования использование транкинговых или более быстрых сетевых адаптеров (например, 10G ethernet или Infiniband) для этой выделенной ссылки может быть полезным, но если большинство / все данные для чтения или записи поступают из интерфейса LAN, это не поможет вы все равно ограничены ЛВС.

  6. Это возвращается к моему первому абзацу: что вы ожидаете от него и что вы считаете HA? Для опытного системного администратора это может быть дешевый и надежный способ защиты от ряда сбоев, но для этого требуется много фундаментального понимания того, как детали подходят друг к другу. Многие небольшие магазины без такой опытной SA полностью работают с качественным оборудованием и хорошим контрактом на поддержку.

Наконец: не пытайтесь применять обратную связь с любым решением HA на вашем текущем оборудовании. Как я писал, вы необходимость время экспериментировать с установкой и условиями ее отказа. Это требует большого количества времени простоя и не может быть разумно сделано на вашем оборудовании.


7
2017-08-24 11:13



К вашему второму пункту, я определенно понимаю, что, вероятно, 99,9% профессионалов там скажут то же самое для ХОРОШЕЙ причины. В «2.» в нашей настройке для RAID мы фокусируемся на сбое диска, сбое контроллера, ошибках программного обеспечения и ошибках пользователя и планируем соответственно. Что будет схожий список с помощью DRBD. Это то же самое? Что касается «4.», мы находимся на стадии планирования для всего этого. По мере нашего роста наши данные будут более важными, и время простоя станет все более серьезной проблемой, поэтому мы стараемся быть превентивными при планировании сейчас, чтобы мы могли начать покупать детали для создания нашей инфраструктуры - Damon
"6." Я просто хочу и нуждаюсь в большем времени бесперебойной работы для наших файлов, базы данных и конца веб-сайта. И для возможности для меня быть в полевых условиях при нормальных сбоях оборудования (память, PS, контроллер и т. Д.) И все еще работать. Мы начали с простого превращения рабочего стола в сервер и много лет работали без проблем. НО, ЭТО НЕ ПОСЛЕДНЕЕ :). Таким образом, план состоит в том, чтобы, вероятно, найти использованный сервер IBM, HP или Dell (высокая доступность и дешевый), но это не решает проблему отказа оборудования, поскольку на протяжении многих лет у них также будут проблемы; просто с более высоким интервалом между сбоями. - Damon
К вашему последнему пункту, абсолютно. Для этого потребуется много времени. Но нам нужно знать, куда мы идем, чтобы мы приобрели подходящее оборудование и начали его интегрировать, поэтому, когда у нас есть объем бизнеса, все это выясняется. Мы выполняем жесткую маржу, поэтому мы просто пытаемся использовать наши варианты, чтобы снизить стоимость и увеличить производство. В этом случае покупка нового дорогостоящего одиночного сервера кажется более дорогим, чем 2-х используемый сервер с DRBD, и даст больше времени безотказной работы при более низкой цене оборудования. Стоимость SA, безусловно, является фактором, и я думаю, что в нашем случае это все еще дешевле. - Damon
О, и стартовая модель Google была вариантом того, о чем мы думаем. Google использовал аппаратное обеспечение потребительского класса и построил избыточность; КОГДА что-то не получается, просто замените его. Я думаю об аналогичном движении для нашей ИТ-инфраструктуры. В настоящее время мы используем его для нашего оборудования. Например, мы покупаем подержанные газонокосилки Honda HR214 за 50-100 долларов (вместо 1000 новых аналогичных новых коммерческих), и у нас есть 3, где нам нужно 2; когда косилка терпит неудачу, мы просто заменяем ее и ремонтируем, когда у нас есть время. Но мы обслуживаем наше оборудование самостоятельно. Чтобы DRBD работал, нам нужно будет сделать то же самое. - Damon
DRBD - это «дешевая» замена для SAN: она позволяет вам подключить моделированное совместно используемое блочное устройство к нескольким машинам. Но это никоим образом не поможет вам при любом отказе приложений. Если вы запустите файловый сервер, он запускается только на одной машине за раз, пока данные хранятся в синхронизации на обеих машинах. Однако, если первичный файловый сервер выходит из строя, в DBRD нет ничего, что бы переключить этот файловый сервер на второй компьютер. Это домен программного обеспечения для управления кластерами, и внедрение этого в безопасном и надежном виде намного больше сложнее, чем просто DRBD. - Sven♦