Вопрос: Лучший системный администратор аварии [закрыт]


Я ищу забавные истории об авариях системного администратора, которые у вас были. Удаление электронной почты генерального директора, форматирование неправильного жесткого диска и т. Д.

Я добавлю свою собственную историю в качестве ответа.


87
2018-05-13 21:00


Источник


Смотрите также serverfault.com/questions/5066 - Zoredache
Это действительно больше опрос, чем вопрос. Вероятно, это должно быть установлено в wiki сообщества. - Zoredache
Да, это определенно будет вики сообщества. В намерении вопроса, однако, моя любимая история - это 500-миллиметровая электронная почта - ibiblio.org/harris/500milemail.html - хотя, очевидно, это был не я. - Mihai Limbăşan
500miles просто замечательно - Hubert Kario
Это следует назвать «худшей аварией системного администратора». - Rilindo


Ответы:


Мне было интересно узнать разницу между командой linux «killall» (убивает все процессы, соответствующие указанному имени, полезно для остановки зомби) и команду «killall» Solaris (убивает все процессы и останавливает систему, полезную для остановки производственного сервера в в середине пиковых часов и заставляя всех ваших сотрудников смеяться над вами в течение недели).


133
2018-05-13 23:20



Был там, сделал это. После этого мы смирились с командой killall на коробках solaris: alias killall = 'echo ORLLY?' знак равно - Commander Keen
Также существует важная разница в Solaris между «ifconfig -a4» (показать информацию об IPv4 всех интерфейсов) и «ifconfig -a 4» (установить все интерфейсы на 0.0.0.4). - Zanchey
+1 «Упс, этот ветер занесен в солярис?» - Mark Harrison
@Commander, я собирался поднять ваш комментарий, но есть в точку В этот самый момент осталось 42 ... Я просто не может, - Massimo
Также, hostname -f на Linux печатает полное доменное имя в Linux. В Solaris он задает имя хоста -f, - 200_success


Я отвечал за наш корпоративный веб-прокси, который в то время был продуктом Netscape. Во время игры в админ-формах (это был веб-интерфейс) была большая (и я клянусь, что это была красная) кнопка, которая сказала Удалить базу данных пользователей, «Нет проблем, - подумал я. Давайте посмотрим, какие параметры он мне дает, когда я ударил это. Разумеется, появится запрос подтверждения, если нет параметров.

Да, никакого подтверждения. Нет параметров. Больше пользователей.

Итак, подошел к мистеру Соларису Сисадмину и сказал, что мне отчаянно нужно восстановить с ленты, на которую он ответил: «Я не верну эту коробку».

«Ну, приходите еще», - ответил я.

«Я не верну эту коробку. Это в моем списке вещей, чтобы добавить к вращению резервной копии, но я еще не добрался до нее».

«Этот сервер работает почти 8 месяцев!» Я закричал.

пожимание плечами, он ответил. "Сожалею."


73
2018-05-14 12:26



Это определенно история для всех тех людей, которые жалуются на этих противных «Вы уверены?» диалоги;) - MikeyB
Я не уверен, что ты должен быть тем, кто кричит на него ... - Mikeage
На самом деле это не случайность - вы специально нажали кнопку «Удалить пользовательскую базу данных», пришли на чувак ... - Wayne Koorts
Да, ты прав. Нажатие кнопки не было случайностью. Фактически удаление базы данных было частью аварии. Без разницы... - squillman
За этой кнопкой должны были следовать две или три подсказки подтверждения. Как это полезная функция для удаления базы данных пользователей? Я полностью обвиняю программиста, который запустил кнопку. И тот факт, что db не был скопирован. «Гений может иметь свои ограничения, но глупость, таким образом, не является инвалидом». (attr к Эльберту Хаббарду). Строя с предположением, что людям не любопытно, неосторожные обезьяны просто создают катастрофу. - Jared Updike


Много лет назад у компании, в которой я работал, был клиент, который выполнял ночную резервную копию своего NT 4.0 Server до Jaz диск (например, большой zip-диск).

Мы создали пакетный файл, который выполнялся как запланированное задание за одну ночь. Каждое утро они собирали диск прошлых ночей с диска, и до того, как они ушли вечером, они вставляли следующий диск в последовательность.

Во всяком случае, командный файл выглядел примерно так (диск Jaz был диск F:) ...

@echo off
F:
deltree /y *.*
xcopy <important files> F:

Во всяком случае, однажды ночью они забыли поместить диск. Изменение на диск F: не удалось (без диска на диске), и командный файл продолжал работать. Рабочий каталог по умолчанию для пакетного файла? C :. В первый раз я когда-либо видел процедуру резервного копирования уничтожить сервер, на котором он выполнял резервное копирование.

В тот день я кое-что узнал о sysadminning (и обработке исключений).

Джим.

PS: Исправить? "deltree / y F: \ *. *".


66
2018-05-13 20:00



... мы должны объяснить, что такое диски Jaz? Неужели я такой старый? - Spencer Ruport
Это была вещь IOMEGA (помните Zip Drives?) Был большим братом Zip Drives, и это было похоже на жесткий диск без головок, только пластин, которые вошли в пластиковый корпус с маленьким окном, и когда он вставлен диск, диск вставил на него заголовки. Где, например, 1 или 2 ГБ, дорогой и, как правило, перегретый, поэтому не рекомендуется оставлять картриджи внутри читателя (это говорит старый босс IOMEGA) - Andor
Хе-хе, мне нравится, как диск Jaz объясняется сравнением с просто-мертвым и неуместным zip-диском. - Luke
Если это заставляет вас чувствовать себя старше, есть системные администраторы, которые никогда раньше не видели дельт. - Joseph
Мне пришлось объяснить многим программистам, что при попытке операции, которая изменяет состояние, и все же может выйти из строя и оставить вас в предыдущем состоянии, вы должны проверить, удалось ли это, если вы собираетесь сделать что-то опасное если вы находитесь в предыдущем состоянии. Почему я должен это объяснять? - carlito


root @ dbhost # find / -name core -exec rm -f {} \;

Я: «Ты не можешь войти? Хорошо. Что такое имя БД?»

Си: «Ядро».

Я: «О».


61
2018-05-13 18:31



и с тех пор использование команды «файл» было добавлено в очистку crontab ... :) - MikeyB
О Боже мой.... - squillman
О мой бог ... ничего себе. Я собираюсь задуматься над этим, поэтому я никогда этого не делаю. - Glenn Willen


Мне нравится, как каждый оценивает свою историю с «когда я был молод / зеленым», как будто они никогда не сделают этого снова. Несчастные случаи могут случиться даже с самыми опытными профессионалами.

Мой собственный худший момент настолько плох, что я все еще чувствую сердцебиение, думая об этом ...

У нас была SAN с данными о производстве. Критически для компании. Мой «наставник» решил расширить раздел, чтобы освободить место на диске. Вы можете видеть, куда это направляется? Он сказал, что программное обеспечение SAN может делать это вживую, в часы производства, и никто не заметил бы. Тревожные колокола должны были звонить, но молчали. Он сказал, что делал это «много раз раньше» без проблем. Но вот что - он заставил меня нажать кнопку, которая сказала «ты уверен?»! Поскольку я был новичком в компании, я предположил, что этот парень знал, о чем он говорит. Большая ошибка. Хорошей новостью было то, что LUN расширился. Плохие новости были ... я знал, что были плохие новости, когда я начал видеть ошибки записи на диске в окне Windows.

Я рад, что был в коричневых штанах.

Мы должны были объяснить, почему 1TB данных исчез в обеденное время. Это был действительно очень плохой день.

На самом деле это хороший принцип - прежде чем делать то, о чем вы сомневаетесь, представьте, что вам нужно объяснять руководству, если что-то пойдет не так. Если вы не можете придумать хороший ответ, чтобы объяснить свои действия, тогда не делайте этого.


60
2018-05-13 18:22



+1 для последнего абзаца - техника «сидеть на твоих руках», одна важная минута для размышлений - Andy
Есть определенный навык, который вы получаете после работы с живыми системами некоторое время: ощущение паука в том, что опасно, а что нет. Подобно приостановке дополнительной секунды, прежде чем нажимать return в корневом запросе или убедиться, что инструкция SQL update имеет правильное предложение where (это уже было выполнено в подсчете select (*)). - jplindstrom
Я хочу всплывающее окно, которое говорит что-то вроде «Хотите ли вы распечатать свое резюме, прежде чем продолжить?» .. и имеют только один вариант: «Да», - warren
+1 для рекомендаций в последнем абзаце - Jeroen Huinink
+1, то же самое. Я помню, как слышал от друга из сестры-сестры, что в его ежегодной аттестации были проблемы с его плохой скоростью набора текста, которую он презрительно (и правильно) уволил с помощью «Мне не платят быстро набирать. Мне платят, медленно и задумчиво ». - MadHatter


Нагиос звонил нам однажды утром, когда рабочие часы начали говорить, что он не может подключиться к некритическому серверу. Хорошо, поход в серверную комнату. Это старый сервер, Dell 1650, купленный в '02, и мы знали, что у 1650-х годов возникли проблемы с оборудованием. PFY нажимает кнопку питания. Ничего. Удалите его еще раз и удерживайте его в течение пяти секунд, чтобы «включить питание» ..., который переопределяет защиту от ошибок BMC, поскольку без DRAC нет возможности исследовать журналы BMC без включения питания на шасси.

Машина запускает POST, а затем снова умирает. Я стою над ним и иду: «Я чувствую запах дыма». Мы вытаскиваем сервер на его рельсы, и один из источников питания чувствует себя теплым, поэтому PFY тянет его и собирается закрыть окно. Я говорю: «Нет, это не блок питания, это дым от материнской платы».

Мы снова открываем дело и ищем источник горящего запаха. Выключает катушку индуктивности и конденсатор, что-то сдуло с регулятора напряжения на материнской плате и распыляет расплавленную медь и конденсатор на все, замыкая кучу вещей и в основном создавая большой беспорядок.

Самое худшее для меня было признание того, что я курил достаточно оборудования, чтобы узнать разницу между запахом сожженной материнской платы и сгоревшим источником питания.


54
2018-05-14 14:49



Критерии отбора этой работы: хорошее обоняние. Brilliant. - mlp
Мой приятель ввернул набор дисков в диск до сих пор, что они вошли в печатную плату и закоротили его. Довольно розовый дым. Очень заметно. - squillman


Три дня назад (серьезно) я был удаленно зарегистрирован на школьном сервере, установив Service Pack 2 на файловый сервер Windows Server 2008.

Я решил запланировать необходимую перезагрузку поздно ночью, когда учителя не будут регистрироваться, заканчивая свои карточные отчеты в конце года. Я набрал что-то вроде:

 в 23:59 "shutdown -r -t 0" 

... который, возможно, сработал нормально.

Но потом я догадался сам. Был ли правильный синтаксис «shutdown»? Я попытался просмотреть справку об использовании, набрав

 выключение / ч 

... и мгновенно потерял соединение RDP. Паника, я попал в Google для синтаксиса. Быстрый поиск показал, что версия shutdown Server 2008 включает в себя переключатель / h, который (как вы могли догадаться) спящий спящий режим.

Учителя начали называть меня в течение нескольких минут, чтобы сообщить, что они больше не могут открывать или сохранять открытые карточки отчетов, над которыми они работали. Поскольку я был вне офиса, и серверная комната была заблокирована, мне пришлось сразу же вызвать директора школы и провести ее через процесс включения машины.

Сегодня я приносил домашнее печенье всем в качестве извинения.


47
2018-05-13 23:53



Прекрасный пример неправильного дизайна пользовательского интерфейса в командной строке: что бы ни случилось с «Принципом наименьшего сюрприза»? - Mei
на DOS / Windows это не так? - Jared Updike
Обычно /? на Win, но есть много утилит, которые переносятся из UNIX или написаны людьми UNIX (включая немало таких на MS), которые являются -h или / h - Richard Gadsden
.. но вы все еще ВСЕГДА попробуйте /? первый! - warren
Вот почему мне нравится Linux. man shutdown, Я знаю, что я не стану создавать проблемы с man! - Josh


В предыдущей работе у нас была отличная доморощенная система, которая регистрировала и архивировала каждый отдельный кусок почты, который вошел, оставил или остался внутри компании.

Убрать весь почтовый ящик? Нет проблем! Ищете кусок почты, который кто-то отправил вам неделю / месяц / год назад, но вы не можете вспомнить, кто его отправил или что было? Нет проблем! Мы просто переделаем все с февраля для вас в специальную папку.

В какой-то момент возникла необходимость в том, чтобы генеральный директор компании контролировал почту, проходящую между конкурентом и внутренним продавцом под подозрением. Таким образом, мы настраиваем сценарий, чем каждый вечер, и отправляем соответствующую почту с предыдущего дня генеральному директору. Нет проблем!

Примерно через месяц слово о двойной плюс срочной проблеме спустилось с высоты. Похоже, что, когда генеральный директор читал список писем, отправленных в $ OTHERCOMPANY, он столкнулся с этим:

To: somebody@$OTHERCOMPANY
From: CEO
Subject: CEO has read your message (subject line here)

Естественно, что генеральный директор был важным человеком и все, он был слишком занят, чтобы нажимать на все эти диалоги «Отправить чтение» в Outlook и настроил своего клиента, чтобы просто отправить их всем. В одном из сообщений, обнаруженных фильтром мониторинга, был установлен запрос на чтение-получение. Угадайте, что сделал Outlook? Разумеется, подвело «подпольный» мониторинг.

Наша следующая задача: добавление правил в фильтр почты для блокировки исходящих чтений от генерального директора к этой компании. Да, это был самый простой способ. :)


37
2018-05-13 18:35



Это не законно в моей стране. Вообще. - mafu
Ах, ну это ваш страна. :) В Канаде все нормально. - MikeyB
Неправомерно ли отслеживать электронную почту, входящую или выходящую на серверы вашей собственной компании? В какой стране ты живешь? - Andrew Ensley
+1 для новостной ленты - Fahad Sadah


Ahhh, мой был около 10 лет назад, когда я все еще был мокрым. У меня была радость от установки резервных батарей на всех компьютерах программистов. Они также хотели, чтобы программное обеспечение было загружено, чтобы предупредить об отключении электроэнергии и отключиться должным образом.

Поэтому я установил его на свой компьютер, чтобы проверить все сначала и, конечно же, убедиться, что все это сработало. Поэтому я отсоединяю шнур питания, и сообщение появляется на моем экране. «потеряна внешняя мощность, начало работы системы».

Поэтому я подумал: «Эй, круто, это сработало. Но по какой-то странной причине, я даже не помню, он отправил это сообщение в виде сетевого сообщения, поэтому все 200+ компьютеров в компании получили это сообщение, где более 100 пользователей, где программисты.

Да, поговорим о массовом уродстве!

Я долго держал голову в этом месте!


36
2018-05-13 19:00



Ха-ха, похоже, что случилось с моим другом здесь с «net send» и около 1300 получателей :) - squillman
Тьфу. Я тоже сделал «net send» в колледже. Я думал, что «они должны были отключить этот« ба-дин »! ба-динь! во всей лаборатории компьютеры получили сообщение. Я решил извиниться перед сетевым администратором, и на моем пути каждый компьютер, на котором я проходил, получил сообщение. /вздох - Matt Simmons
Да, гуляй от стыда прямо сейчас! Мой друг не сошел со стула. Не стал даже отвечать на его телефон. - squillman
Ха-ха, друг моей сети, отправил всех в школу «ПОМОГИТЕ! Я заперт в Комнате 114», и, конечно, через 60 секунд небольшая армия людей поднялась, чтобы узнать, кто послал сообщение - Mark Henderson♦
Мы фактически использовали эту функцию для панка администратора sys в моем младшем колледже. Очистили все компьютерные лаборатории поддельными сообщениями AV и сообщениями об отключении системы, которые выглядели так, как будто они пришли от него. Он сильно подозревал, что мы были виновниками, но у меня и моего приятеля каждый был алиби (я отправил первый, когда он был в классе, и он отправил второй, пока я был в классе), и у компьютеров были общие логические входы в систему - Shial


Я бы часто использовал команду «sys-unconfig» на компьютерах Solaris для сброса службы имени машины, I.P. адрес и пароль root. Я был в системе пользователей, и я вошел в сервер установки здания и посмотрел что-то вверх (как root), а затем забыл, что я вошел в систему на другом компьютере (не описательное «#» приглашение). Я запустил команду «sys-unconfig».

# sys-unconfig     
        WARNING

This program will unconfigure your system.  It will cause it
to revert to a "blank" system - it will not have a name or know
about other systems or networks.

This program will also halt the system.

Do you want to continue (y/n) ? y

Connection closed

#

Это сообщение «закрытое соединение» медленно превратилось в панику ... какую машину я вошел в систему, когда я запускал эту команду.

Хуже всего то, что мне не помогли мои коллеги, это было то, что я сделал то же самое через месяц.


35
2018-05-13 23:46



О, классика, «на какой машине я?» момент паники. Я был здесь. Я чувствую твою боль. - sysadmin1138♦
Я тоже. Любой, кто испытал это, точно знает, что означает фраза «холодная кровь». - Matt Simmons
Есть причина, по которой моя подсказка оболочки всегда включает имя пользователя и имя хоста ... - derobert
Я когда-то настраивал псевдонимы для входа в систему на разных машинах, чтобы получить разные цветные фоны, чтобы еще более четко распознавать, на какой машине я был. - Zitrax
Поскольку я использую Linux на обоих серверах и на моем локальном компьютере, у меня часто появляются подсказки root на серверах и на моем ПК, у серверов есть красные подсказки для разграничения - Hubert Kario


У меня очень хороший. По общему признанию, это было до моего времени как администратор, но все же связанный с технологией, поэтому я решил, что добавлю его.

В тот же день я работал спутниковой / широкополосной техникой для ВВС США. Недавно окончив техникум, я оказался в Южной Корее. Вскоре после прибытия на станцию ​​появилась возможность отправиться на юг с «большими парнями», которые были там на некоторое время и действительно работали над каким-то реальным оборудованием (то есть «производство»).

Я спустился вместе с экипажем и, как энергичный, молодой специалист, был немного вздрагивал, очень взволнованный перспективой получить мои руки от фактического оборудования, которое передавало живой голос и передачу данных.

Чтобы начать меня медленно, они вручили мне руководство, обратились в секцию профилактического обслуживания и указали мне в сторону четырех стоек, заполненных несколькими большими цифровыми мультиплексорами. Оборудование было достаточно легким, мы покрывали одно и то же оборудование в технической школе.

Читается первая страница руководства; «Примените питание к мультиплексору ditigal. Поверните оба задних переключателя в положение ON и подождите, пока оборудование включится, а затем начните тесты». Я поднял глаза, и уже была сила, ПРИКЛАДНАЯ!

Я был в затруднительном положении. Не зная, как действовать дальше, я расстрелял все возможное, «Умммм .. Кинда проиграл здесь», посмотри на старшего.

Он посмотрел на меня и рассмеялся: «Нет, нет, все в порядке. Вы можете игнорировать эту часть контрольного списка». Затем, когда он заметил выражение на моем лице (так как нас учили в школе НИКОГДА, КОГДА-НИБУДЬ не обращали внимания на какую-либо часть контрольного перечня, и это была определенная смерть и разрушение, если бы это было так), он серьезно посмотрел на его лицо и сказал: «Игнорируйте ТОЛЬКО ту часть! Следуйте за ней, в письме!»

Достойно, я пробежал многоступенчатые инструкции PM, довольный, как моллюск, и гордился тем, что они позволяли такой низкоуровневой (хотя и умной) технике выполнять эту важную работу.

Где-то между пятым и шестым контрольным списком профилактического обслуживания на этих огромных мультиплексорах я начал замечать повышенный уровень активности вокруг меня. Телефоны звонили, люди двигались быстро. Меняли взгляды.

Наконец, группа людей подбежала ко мне, возглавляемая одним из тех высокопоставленных техников, которые меня сбили.

«Эй, мы наблюдаем БОЛЬШИЕ отключения в трафике данных, и мы изолировали / проследили путь обратно к стойкам, над которыми вы работаете! Вы видите какие-то странные ...»

(В этот момент он был отключен еще одним из тех, кто справился с проблемой, которые проделали путь к первой группе мультиплексоров, на которых я выполнял PM).

«СВЯЩЕННЫЕ ОРЕХИ! ОНИ ОТКЛЮЧЕНЫ! ОН БЫЛО ОТКЛЮЧАЕТСЯ !!!!»

Вкратце, я наблюдал, как они поспешно прошли первый шаг в руководстве: «Поверните оба задних переключателя в положение« ON »...» Когда старший техник был сделан, он подошел ко мне и недоверчиво спросил, что я думаю из-за выключения критических компонентов оборудования.

Испугавшись моего ума, я вручил ему контрольный список, за которым я следовал, клянусь, что я не отклонился ВСЕ. То, что я последовал за ним, «на письмо», как он инструктировал.

Через некоторое время он рассмеялся и указал, где проблема.

В руководстве, шаг FINAL в контрольном списке профилактического обслуживания был:

«Запишите окончательное считывание зонда, протрите переднюю панель, удалите всю пыль и частицы, затем поверните оба задних переключателя питания в положение OFF. "

:)


27
2018-05-15 01:57



Я не понимаю, что это значит - Joe Phillips
Разве не последний шаг, говорящий, чтобы отключить машины, кажется немного странным? Просто интересуюсь. - Andrew Ensley
Это, наверное, показалось странным, но помните, он был в армии. Представьте, что вы пытаетесь командовать армией, где каждый солдат говорит: «Подождите, вы уверены? Этот порядок звучит смешно для меня». - Kyralessa