Вопрос: Должно ли сетевое оборудование устанавливать «автосогласовать» скорости или фиксированные скорости?


Мы недавно возникла небольшая проблема с сетью, где несколько серверов будут периодически потерять сетевое подключение довольно болезненным способом (требуется жесткая перезагрузка). Это происходит примерно две недели, казалось бы, случайным образом, на разных серверах. Никакой конкретной картины, которую мы могли бы различить.

После некоторого углубления в него мы увидели, что коммутатор сообщал о 100 Мбит / с для проблемного порта:

Это звучит удивительно, как то, что произошло в статье Джоэла Спольского Пять Whys

Майкл провел некоторое время после вскрытия и обнаружил, что проблема была простой проблемой конфигурации на коммутаторе. Существует несколько возможных скоростей, которые коммутатор может использовать для связи (10, 100 или 1000 мегабит в секунду). Вы можете установить скорость вручную, или вы можете позволить коммутатору автоматически согласовать максимальную скорость, с которой обе стороны могут работать. Выключенный коммутатор был настроен на автосогласование. Обычно это работает, но не всегда, а утром 10 января этого не произошло.

У нас есть отключить автоматическое согласование на нашем сетевом оборудовании и установите его на фиксированную скорость 1000 Мбит / с (гигабит).

Мои вопросы для тех, у кого больше опыта работы с оборудованием на сервере:

  1. Насколько распространены проблемы автоматического согласования с современным сетевым оборудованием?
  2. Является ли это хорошей, стандартная сетевая практика, чтобы отключить автоматическое согласование и установить фиксированные скорости при настройке сети?

87
2018-01-25 18:57


Источник


Вы также отключили автоматическое согласование на своих серверах и зафиксировали их до 1000 / full? - James
Это только я, но если бы я столкнулся с вашей проблемой, мне было бы интересно, почему коммутатор и сервер не ведут переговоры о скорости с наивысшим приоритетом (1000 / full). Это говорит мне, что что-то сломано, и, заставив ссылку на определенную скорость, вы просто прикрываете проблему. - Doug Luxem
есть некоторые платформы (в частности, Solaris 9), которые имеют проблемы с автосогласованием в известных сценариях - я использую autoneg только для чего-либо, сделанного за последнее десятилетие, хотя - warren
Что-то, что чуть не привело меня к розовому скольжению: serverfault.com/questions/328105/ethernet-interface-errors - nixnotwin


Ответы:


  1. Я еще не вижу проблемы с автоматическим согласованием скорости сети, которое не вызвано (а) несоответствием руководства на одном конце ссылки и авто на другом или (b) сбоя компонента ссылки ( кабель, порт и т. д.).

  2. Это зависит от администратора, но мой опыт показал мне, что если вы вручную укажете скорости ссылок и дуплексные настройки, то вы будете вынуждены столкнуться с несовпадением скорости. Зачем? Потому что практически невозможно документировать различные соединения между коммутаторами и серверами, а затем выполнять эту документацию при внесении изменений. Большинство сбоев, которые я видел, связаны с 1 (а), и вы только попадаете в эту ситуацию, когда вручную начинаете настройку скорости / дуплекса.

Как упоминание в Документация Cisco:

Если вы отключите автосогласование, он скрывает капли ссылок и другие проблемы физического уровня. Отключить автосогласование только конечным устройствам, таким как более старые сетевые карты Gigabit, которые не поддерживают автосогласование Gigabit. Не отключайте автосогласование между коммутаторами, если это абсолютно необходимо, так как проблемы физического уровня могут оставаться необнаруженными и приводят к обвязке петель.

Если вы не готовы настроить систему управления изменениями для сетевых изменений, требующих проверки скорости / дуплекса (и не забывайте об управлении потоком), или готовы иметь дело со случайными несоответствиями, которые возникают из-за ручного указания этих параметров на всех сетевых устройствах, затем придерживайтесь стандартной конфигурации auto / auto.

В будущем рассмотрите возможность мониторинга ошибок на портах коммутатора с MRTG поэтому вы можете выявить эти проблемы до того, как у вас возникнут проблемы.

Редактировать: Я вижу много людей, ссылающихся на неудачи переговоров на старом оборудовании. Да, это была проблема давным-давно, когда стандарты создавались, и не все устройства следовали за ними. Являются ли ваши сетевые адаптеры и коммутаторы менее 10 лет? Если это так, то это не будет проблемой.


101
2018-01-25 19:15



Кактусы - это, по сути, MRTG без конфигурационного беспорядка, поэтому он должен быть хорошим. Просто начните отслеживать падения и ошибки RX, столкновения TX и т. Д. Один или несколько из этих счетчиков будут «высокими», если у вас есть проблема с переговорами. Высокое относительное количество трафика на порте. - Doug Luxem
@EK - Конфигурация должна быть выполнена на коммутаторе и устройстве. Замена устройства (или, может быть, просто обновление драйверов / прошивки), перемещение портов или замена коммутатора - все это относится к несоответствующим настройкам. Я не уверен, почему вы видите так много ошибок - здесь мы запускаем HP, Cisco, Extreme и Juniper, и я никогда не вижу проблем с автоматическим обсуждением. Единственные проблемы, которые я видел, - это когда один конец ссылки устанавливается вручную. Как упоминает документ Cisco, возможно, у вас есть некоторые основные проблемы L1? - Doug Luxem
Мой опыт с использованием коммутаторов HP, Cisco и Dell соответствует w / DLux. Я догадываюсь о том, что многие другие люди чувствуют то же самое. Сети, в которых админы религиозно жестко устанавливали скорость / дуплексный порт, всегда имели гораздо больше проблем с несоответствиями, чем сети, где все было настроено на автосогласование. - Evan Anderson
@Whisk WAN-ссылки - это совсем другая история. Когда вы передаете сетевые ссылки от какого-то провайдера, они часто вынуждены вручную или используют приемопередатчик, который не поддерживает автоматическое согласование. Те, кто в значительной степени должны обрабатываться в каждом конкретном случае. - Doug Luxem
Я думаю, что голосование немного вводит в заблуждение, поскольку некоторые люди будут обладать роскошью оборудования у 1 или 2 поставщиков (или просто не испытывают многого) и никогда не видят проблемы, тогда как другие, подобные мне, унаследовали оборудование от множества разных поставщиков, что делает в некоторых сочетаниях. - JamesRyan


  1. Очень часто, с годами у меня было множество проблем с различными типами оборудования.

  2. На мой взгляд, если установка является статической (то есть серверной стойкой), и вы не думаете, что будут изменения, это хорошая идея настроить скорости и дуплексы вручную. Пока это хорошо документировано, чтобы можно было предотвратить будущие проблемы.

РЕДАКТИРОВАТЬ:

Чтобы уточнить, я не сторонник использования ручных скоростей во всей вашей сети, я бы сказал, что 95% времени авто / авто - это путь. Я просто говорю, что у меня были проблемы с дуплексом / скоростью, и есть небольшие части моей сети (то есть одна из наших серверных стоек), которые имеют в основном ручные настройки. Мы работаем с очень жестко контролируемой ЛВС с неиспользуемыми портами, которые выходят из строя, и MAC-фильтры на большинстве портов, поэтому отслеживание скорости не очень сложно.


23
2018-01-25 19:03



Я нашел ту же проблему, но, возможно, только 1/100 серверов будут иметь какие-то автосогласованные проблемы. Обычно он не заметен в небольших сетях, но достаточно, чтобы раздражать более крупные. - Dave Drager
+1 - Я тоже видел всплеск проблемы с автосогласованием на протяжении многих лет. Наличие команды стандартизовать на отключении автосогласования для всех коммутаторов устранило эту проблему для нас. - Joe Doyle
Ничего добавить к этому, кроме того, что я могу повторить, что я видел многочисленные проблемы. Если у кого-то еще есть информация о том, почему autonegotiate не удается так (относительно) регулярно, я бы хотел его услышать. - Schof
@dave, поэтому вероятность возникновения проблемы автосогласования возрастает с размером и сложностью сети - это имеет смысл. Кроме того, мы расширили нашу небольшую серверную стойку сети за последний год на 3 раза ... - Jeff Atwood
@Jeff Atwood: Только в том случае, если «размер» migt связан с лучшими шансами добавления устройства со сломанным автосогласованным поведением, вероятность возникновения проблем будет возрастать. Это не похоже на наводнение кадров или широковещательный трафик. Автосогласование выполняется строго между каждым клиентским устройством и каждым портом коммутатора. - Evan Anderson


Я считаю, что если автосогласование работало в течение часа или месяца, а затем почему-то «что-то случилось», что установка ссылки на фиксированную скорость «исправляет ее», есть проблема, которая не решается, а обходится вместо этого. Думаю, я вижу, что ссылка привязана к фиксированному как временное решение, пока не будет исправлена ​​реальная проблема.


15
2018-01-25 19:47



вполне возможно; мы уже сделали кучу других способов устранения неполадок, но я был обеспокоен тем, что у команды Джоэла была такая же проблема, как и в документе «Five Whys». Это кажется довольно распространенным. - Jeff Atwood
Я согласен, что проблема с автосогласованием происходит «часто», но в большинстве случаев после того, как она работает на «время». Вот что побуждает меня хотеть продолжить расследование вместо того, чтобы использовать фиксированную ссылку как «решение», я имею в виду ... если ваш автомобиль, «отлично работающий», начинает работать грубо, если он не прогреется в течение 10 минут, вы не сказали бы «Эй, он становится старше, и теперь ему нужно прогреться в течение 10 минут». Вы бы взяли его, чтобы посмотреть на его раннюю возможность, потому что «что-то не так», чего не было раньше :) - dimitri.p


Сеть, за которую я отвечаю (наряду с несколькими другими ребятами), состоит из ~ 40 серверов, 1000 рабочих станций (распределенных по довольно крупному кампусу) и ~ 1000 WAP также распространяются по большой площади с разными типами и возрастом сетевого оборудования.

Как сказал dimitri.p, когда что-то внезапно не удается остановить автосогласование, это обычно указывает на другую проблему. Установка порта вручную сродни тому, чтобы наложить бандаж на кого-то, кто был заколот в кишечнике - это может остановить кровотечение, но там обязательно будет повреждение.

Мой обычный контрольный список:

  • что-нибудь изменилось на машине? водители? OS или BIOS? Возможно, autoneg был отключен в ОС?
  • вы поменяли патч-кабели и проверенный кабель работает (если это ловушка работает, чем одна стойка?)
  • проверили ли вы, что порт коммутатора плох или не работает?
  • может ли NIC плохо работать?

Мы, как правило, никогда отключите autoneg на серверах (или что-нибудь еще в центре обработки данных), если это не так, когда все другие возможные причины были устранены, мы переместили порты коммутатора, изменили кабели, протестировали сетевой адаптер и т. д., и другого выбора нет. В этом случае он документируется до смерти. Это происходит очень редко, и обычно с устройствами, которые мы не можем получить, чтобы проверить настройки BIOS и ОС.

С другой стороны, рабочие станции и точки доступа - это совсем другая история. Сбой autoneg - это классический признак плохого прогона кабеля, и много раз нам приходится вручную устанавливать скорость и дуплекс до тех пор, пока не наступит сезон летних бега-новых кабелей в стене.


14
2018-01-25 20:08



мы неоднократно меняли кабели и порты на «проблемном» сервере, и мы вернулись к использованию сетевых драйверов «в коробке» (Server 2008 R2). Это также происходит на нескольких серверах одинаковой конфигурации. Мне сложно смириться «никогда не делай этого!» и "всегда делайте это!" в ответах на тот же вопрос. - Jeff Atwood
@Jeff: знакомство с вопросом, который вы и ваша команда первоначально разместили (serverfault.com/questions/104791) Мне интересно узнать, связана ли проблема с портом коммутатора или портом NIC на компьютере (-ях) проблемных серверов. Что такое марка / модель сетевого адаптера / чипсета? - Evan Anderson
@Jeff - Некоторые ответы не являются бинарными :) Это делается, когда вам нужно, пока у вас не будет возможности выяснить, в чем проблема. - dimitri.p
@evan происходит на каждом сервере веб-уровня, не следуя ни за какой-либо порт коммутатора, ни через Ethernet-карту. Если это по-прежнему проблема после этого изменения, это проблема программного обеспечения. Серверы Lenovo RS110 x6 и Lenovo RD120 x2. - Jeff Atwood
Просто чтобы убедиться, что окончательный ответ здесь, где-то: это была проблема с драйвером Broadcom. Мы не смогли решить проблему с помощью любого известного набора драйверов. Единственное «исправление» - это переход на Intel NIC. - Jeff Atwood


Итак, шаги по устранению неполадок (предположим, что вы остановились после каждого и дождались появления проблемы):

  1. Проверьте журналы на коммутаторе, чтобы узнать, говорит ли он, почему он использует 100M.
  2. Если вы все еще используете его, отключите эту крайне злую «мерцающую нагрузку на загрузку Windows», которую Джоэл все время толкает - так, как она работает, это сломать кеш коммутатора, заставляя его обрабатывать каждый пакет. Ваш коммутатор предназначен для пересылки пакетов на аппаратном уровне и имеет только центральный процессор, необходимый для определения того, какой физический путь должен иметь неизвестный поток трафика (in -> asic -> out), и запрограммировать аппаратное обеспечение для этого (читайте: a калькулятор имеет лучший процессор, чем ваш коммутатор, не делайте глупых вещей, которые усложняют работу процессора вашего коммутатора). Балансировка нагрузки Windows работает, заставляя ваш коммутатор принять это решение и переустановить кэш оборудования для каждого пакета. Это может не решить эту конкретную проблему, но меня это подталкивает от подкастов ... извините.
  3. Убедитесь, что конфигурация соответствует с обеих сторон - звучит так, как будто вы сделали это
  4. Google для ошибок autoneg на вашем коммутаторе - если вы не построили его самостоятельно, вы не единственный, кто пытается запустить autoneg на том, что вы используете
  5. Замените кабель, с номинальным Cat5e или лучше - в идеале кабель, который вы знаете, работает, например, тот, к которому подключена ваша рабочая станция. Не пытайтесь использовать Cat5, или какой-нибудь дерьмо, сделанный кем-то, используйте тот, у которого есть фактические формованные концы из упаковки.
  6. Перемещение порта. Поместите сервер на другой порт на том же коммутаторе.
  7. Измените сетевой адаптер - используйте другую порцию, заказанную в другое время

На этом этапе вы исключили конфигурацию, к которой подключены физические порты, кабели между ними. Если это все еще некоторые другие причины могут быть следующими:

  1. Прокладка кабелей - будьте осторожны с электромагнитными помехами от ваших силовых кабелей переменного тока, проложите их по разные стороны стойки.
  2. Охлаждение. Убедитесь, что вы являетесь окружающей средой, это не что-то вроде 90 градусов, и ваши карты NIC не попадают в какой-то «дорогой бог, позвольте мне просто отправить этот пакет». Я слышал, но не видел, что маршрутизаторы Cisco перестают делать быстрые переходы и пересылать пакеты через CPU, когда они перегреваются, например.
  3. Замените коммутатор на что-то, что не сосать - проверьте, сколько полос пропускания вашего хоста говорит в секунду в совокупности, а затем посмотрите на номинальную емкость задней панели вашего коммутатора. 7 хостов из потенциала 48 все передающие 1.0G достаточно, чтобы остановить Cisco 3750, например. Также очень заботясь о дешевых сетевых провайдерах: D-Link, Linksys, Dell, Intel и HP. Никто, занимающийся сетью, серьезно не использует этих ребят, а не потому, что «никто не был уволен за использование Cisco», а потому, что «люди помнят, что Intel переключился с 20/48 портами с ошибкой более 2 лет» или «Я использовал исключительно ProCurve и о том, насколько злой была Cisco, до тех пор, пока я фактически не использовал Cisco, и в этот момент я перестала покупать что-нибудь меньшее ». Cisco считается середине диапазона сетевой поставщик, так что это говорит вам о парнях ниже Cisco ...? :-)

Предыстория / почему мой ответ является самым удивительным: я работаю инженером по сетям / системам в финансовой отрасли, и вот мой опыт работы с нашей глобальной сетью (15 филиалов, 8 центров обработки данных):

Все наши LAN-порты autoneg, потому что мы контролируем оборудование на обоих концах и имеем какой-то доступ к обеим сторонам - что может быть так же просто, как получить по телефону кому-то и проверить настройки. Через три года у меня только один из наших внутренних портов потерпел неудачу из-за сбоя autoneg, и это было из-за плохого кабеля --- он ушел после замены кабеля.

У нас было больше проблем, когда предшественники были жестко закодированы 100 / полностью на своих сетевых адаптерах и не документировали этот факт. Сбросьте все на авто / авто в следующем окне основного окна, и с тех пор у них не было никаких проблем.

На пару мест, где у нас есть медная передача от перевозчика для нашей глобальной сети? Вы должны в значительной степени ожидать, что медное WAN / интернет-соединение будет сосать все время - отчасти потому, что вы не знаете, что находится на другой стороне. Какой-то древний переключатель Extreme, который, случается, имеет простую прошивку для autoneg, но выполняет теги MPLS? Какой-то медиаконвертер стоимостью 5 долларов, потому что ваше периферийное устройство вашего интернет-провайдера 200 тыс. Долл. Просто слишком велико, чтобы обеспечить Ethernet по витой паре? Решите заранее, как это будет обрабатываться и придерживаться этого, а затем ожидайте, что какое-то сундук внутри перевозчика изменит его в 10 вечера в субботу, потому что согласованная конфигурация никогда не была задокументирована, и у них есть какая-то политика.

Серьезно, тем не менее, получите передачу обслуживания оптоволокном от вашего интернет-провайдера.


14
2018-01-26 12:37



Просто обдумал это - отличный ответ. - Helvick
Отличный ответ. - Rushino
просто так, что окончательный ответ здесь, где-то, это были плохие драйверы Broadcom. Мы не смогли найти какой-либо набор, который сработал. Переход на Intel NIC фиксировал его на 100%. blog.serverfault.com/2011/03/04/broadcom-die-mutha - Jeff Atwood
@JeffAtwood Это та же проблема? Я думал, что в конечном итоге этот трек отслеживается до режима энергосбережения на коммутаторе ... - James Cape


Это сетевой миф. Наши сетевые парни клянутся этой глупостью, потому что еще в 1998 году переключатели Bay не будут обсуждать с Cisco или что-то в этом роде. Поэтому вместо использования по умолчанию для 99,999% оборудования на земле, у нас есть это смехотворное упражнение по управлению конфигурацией и отличный козлов отпущения для тех случаев, когда обновление драйвера NIC сбрасывает настройки для автоматического согласования и что-то происходит.

Его стало более забавным, потому что многие из наших серверов используют сомнительные функции, такие как объединение NIC, что мешает вам потерять доступ к сети в маловероятном случае отказа коммутатора, а также подвергает вас гораздо более вероятному сбою программного обеспечения. (Драйверы всегда сосут)

В защиту ребята из сети много разрывов работают с драйверами NIC Windows по умолчанию, которые обычно сосут. Если у вас возникли проблемы с автосогласованием, и ваше снаряжение не относится к администрации Клинтона, обновите эти драйверы NIC.


10
2018-01-26 04:16



Это были, в конечном счете, плохие драйверы, но единственным решением, которое мы могли найти, было переход на Intel NIC. Теперь у нас есть пожизненная вендетта против сетевых адаптеров Broadcom. - Jeff Atwood


Вы должны автосогласовать. Если у вас есть переключатель, который не будет автоматически согласовывать, купите лучший коммутатор.

Гигабит предполагаемый для автоматического согласования, и это включает обнаружение авто-кроссовера (MDI-X).

100baseT - гарантированный для отказа, если один конец установлен на автоматический, а другой установлен на ручной, и это соответствует спецификациям. Если вы нажмете один конец на 100 / полный, то другой конец будем auto-negotiate до 100 / half, что дает вам несоответствие дуплекса.


10
2018-01-26 10:12





Обычно я устанавливаю серверы на фиксированные, поскольку я видел, что сетевое оборудование ведет переговоры с 10 / половиной вместо 1000 / full.

Также некоторые CoLos установили свои переключатели, чтобы не вести переговоры, но только сделать ссылку на 1000 / full.


9
2018-01-25 19:06