Что значит упал сервер

Что значит упал сервер

– Ты чего такой грустный?

– Да вот сервер вчера "упал".

– Ну да, ты что его до сих пор не "поднял"?

– Поднял, но он со стола упал.

По статистике, 60% «косяков» лежит на плечах сотрудников компании. Из них основной причиной является небрежность или халатность (39%), а 43% были вызваны успешными вредоносными атаками, не требующими глубоких знаний и навыков. Более подробно об этом я уже писал об этом в предыдущей статье, а сегодня я хочу предложить очередной чарт: «Топ 10 – Как падают серверы?». Или почему "падают"?

10 место. Резервное копирование. Системные администраторы бывают двух видов: которые делают резервные копии и которые пока не делают резервные копии. Бывает еще и третий вид, но очень редкий: системные администраторы, которые проверяют свои резервные копии. На них вся надежда.

9 место. Источники бесперебойного питания. Стандартная ситуация: погас свет, а вместе с ним "погас" и сервер баз данных. Свет появился, а сервер в сети – нет. А вместе с ним не появились и 200 терабайт информации, нажитой непосильным трудом и упорством. Компания приостановилась на несколько дней, а вместе с ней приостановилось и действие трудового договора системного администратора. А казалось бы, поменяй батарейки, настрой автоматическое отключение…

8 место. Оборудование. Вместо серверных платформ используются обычные рабочие станции. Бывали случаи, когда база 1С лежала у бухгалтера на рабочем компьютере на диске D, и даже резервных копий никто не делал! Вопиющая смелость!

7 место. Использование нелицензионного ПО. Был случай, когда один товарищ пытался убедить меня в то, что весть его софт абсолютно лицензионный. Дабы подтвердить свои слова, мне был продемонстрирован лицензионный компакт-диск со всем софтом, купленный в фирменной палатке на Ждановичах. Чек прилагался.

6 место. Плановые замены HDD. Примерно раз в два-три месяца слышу новую историю про рассыпавшийся RAID. Для серверных винчестеров ресурс составляет не более 4 лет. Еще одной частой ошибкой является использование дешевых, не серверных винчестеров, что также весьма чревато. Еще я рекомендую при покупке нового оборудования закупать парочку винчестеров в запас, на всякий пожарный.

5 место. Запуск нескольких сервисов на одном сервере. Говорят, системные администраторы не смешиваю. Все они смешивают! Особенно любят администраторы смешивать контроллеры домена с чем-нибудь еще, например, с MS SQL и с 1C, файловым сервером, прокси-сервером и др. Лет 5 назад это не вызвало бы больших нареканий, но сегодня нравы поменялись, смешивать как минимум, неприлично, как максимум, небезопасно.

4 место. Встроенная учетная запись администратора. Как взломать сервер: берем шару и подбираем пароль к встроенной учетной записи администратора. Если пароль состоит из 4 цифр – пара минут, и сервер наш! А всего-то нужно было учетную запись отключить, а еще лучше и переименовать, да через групповые политики.

Читайте также:  Мсц цопо что это

3 место. Мониторинг. Что такое мониторинг? Это вовсе не зайти раз в неделюмесяцгод в консоли логи посмотреть. Мониторинг – это когда тебе приходит уведомление, что что-то не так, задолго до первого звонка пользователя. В идеале, пользователь вообще не должен успеть позвонить. К сожалению, у нас все больше через консоль.

2 место. Брандмауэр. Какими бы крепкими ни были стены города, они не защитят жителей от больного чумой внутри периметра. Конечно, все дома в городе забором не обнесешь, а вот улочку с серверами обгородить вполне возможно, более того, сисадмины могут сделать это бесплатно и быстро, а если повезет, то и качественно.

1 место. Всемогущий Administrator. Нужно попасть на сервер, запустить сервис MS SQL, сделать бэкап, установить тоталкомандер пользователю, залогиниться на свой комп – бесстрашный domainAdministrator может все! У него сложный пароль – P@ssword – который знает всего человек 10! Он не боится вирусов, которые могут расползаться по сети от его имени! Он может все и не боится ничего!

В очередной раз мы видим, как данные статистики сходятся с жизненными реалиями. А как дела обстоят у вас?

Андрей Махнач

руководитель отдела инфраструктурных решений СООО «ДПА»

Вчера упал сервер, включили только сегодня. Как понять почему произошло падение? Какие логи и где смотреть?
/var/log/messages за вчера содержит только это:

kern.log начинается сегодня, после включения
kern.log.1 заканчивается 19 апреля
В syslog ничего, кроме лога запуска задач по крону
Система Debian 9 amd64
Где искать?

  • Вопрос задан 04 мая 2019
  • 96 просмотров

Поднял netconsole. Пока не падало, но в логах такое:

Вот это что означает?

По какой причине такая ошибка? Нехватка памяти?

Самые частые причины падения серверов и отказа сервисов

1. Проблемы “внешнего мира”.

“Однажды мы бухали в одной большой телекоммуникационной компании. Зимой. На втором этаже. А прямо под нами, на первом, находился узел связи одного большущего банка. Так вот. Побухали, и ушли. Только форточку забыли закрыть. Была зима и минус 40 градусов. Все это было перед праздником 23 февраля. Три дня форточка открыта была, напомню, минус 40. Ну и разморозились батареи к чертям. И залило узел связи этого большущего банка. Так пенсионеры трех регионов получили пенсию на день позже. Бывает”.

2. Начальная школа хакеров.

“Году примерно в 2011 в один из наших серверов хостинга прилетела крупномасштабная по тем временам DDoS-атака. Атакующие, вероятно, были крайне заинтересованы в неработоспособности информационного ресурса одного из наших клиентов, но какого конкретного сайта, выяснить было крайне сложно. Задача атаки сводилась к тому, чтобы полностью забить все наши каналы паразитным трафиком. Да настолько, чтобы полностью парализовать вообще всё, что у нас размещалось. Мы довольно быстро изолировали атакованный сервер и вынесли его внешнюю связность в отдельный канал, чтобы все остальные серверы работали без проблем. На сервере размещалось более тысячи клиентов и почти две тысячи сайтов, и какой именно из них был атакован сетевым флудом неясно. Перебои в работе продолжались больше суток. В 2017 году я смотрю на такие атаки совершенно иначе. Нападений подобного уровня у нас иногда случается по несколько штук в неделю и большинство из них фильтруется автоматикой без вмешательства наших администраторов. Но путь от первой такой атаки и до сегодняшнего состояния занял 6 лет, и до сих пор мы периодически что-то совершенствуем”.

3. Человеческий фактор.

“Давным давно одна компания давала приходящим сотрудникам в свободный доступ компьютеры, поскольку с такой техникой тогда было напряженно. Можно было зайти в интернет ненадолго, договоры поправить, распечатать чего по работе. И стоял у них, как обычный комп – “главный”, это был сервер, с договорами и т.п. А чего пропадать рабочему месту? Кто что сделает без прав админа? Так вот, одной девочке по учебе надо было научиться Linux ставить, ну и пришла она в эту компанию, попросила помочь, говорит: “Можно я у вас потренируюсь?”. Админ ей рукой на компы махнул и сказал: “Ставь, что хочешь, у нас все равно все тачки с сервера зеркалятся, потом оно “бутнется” оттуда и все”. И девочка поставила свой Linux. На сервер! Научилась, что тут скажешь. Сказала, что он самый большой и красивый был”.

“Во время проведения техработ в дата-центре инженер может выключить или перезагрузить не тот сервер или коммутатор, воткнуть провод не туда, системные администраторы выкатят не те обновления и бесконечное множество подобных примеров”.

4. Не железное железо.

В одном банке был сервер с материнской платой “Intel SE7520BD2”, и в один прекрасный летний день в этом сервере вдруг сдохло 8 гигабайт памяти из 32. Инженеры банка, конечно, быстро поменяли память, которая снова сдохла через 3 минуты после запуска сервера. Инженеры снова поменяли память и дохнуть начало уже по 16 гигабайт. Так инженеры спалили 192 гига памяти, после чего решили-таки почитать эти ваши “интернеты” и обратились к поставщику. А все произошло потому, что не прочитали про отзывную кампанию на эти материнские платы, в которых попадались бракованные конденсаторы в контроллере питания памяти”.

5. Температура.

“Купил один заказчик себе дорогущие серверы “IBM Power” под SAP, но куда же их девать? Шумят да греются. Нужен ЦОД! Нашли комнатку 4 квадратных метра, под одну стойку, поставили два кондиционера. Помолились и запустили. Тут на вторые сутки посыпались “алярмы”! Смотрят, железки работают кондиционеры дуют холодом, а “алярмы”, словно по расписанию, раз в 45 минут. В общем – магия! Искали причину – ничего не нашли, так как хозяйство на гарантии. Позвали спецов – та же история! Через месяц стало ясно, что все из-за малой площади помещения. “Power” регулярно скидывал кучу тепла по сработке автоматики, от чего случался перегрев по датчику температуры внешнего воздуха в помещении, в результате чего кондиционеры начинали все неистово охлаждать. Пока охлаждали – “алярмы” сыпались”.

Как с этим бороться?

“Значительную помощь в диагностике и прогнозировании проблем составляют системы мониторинга, снятие и отображение различных метрик с компонентов работающих систем, использование тестовых стендов для обкатки вносимых изменений на аналоге работающей системы и тому подобное, а также дублирование ключевых компонентов, использование кластерных решений и так далее”.

“Основной метод борьбы с этим явлением – грамотный выбор инженерных решений при создании ЦОД и квалифицированная эксплуатация оборудования, в т.ч. внедрение систем проактивной диспетчеризации”.

“Нужно читать руководящие документы и стандарты. И следовать им. Понимаю, это трудно, но индустрии "дата-центров" (ранее – мейнфреймов и т.п.) более 50 лет. И очень умные люди уже подумали о том, что и как нужно делать. Наступили на грабли и описали все случаи, которые с ними случались. Главный руководящий документ называется TIA-942. И этот документ, кажется, даже переведен на русский. Если вы никогда не слыхали об этом документе, то никогда, ни при каких обстоятельствах даже не думайте заводить "собственный сервер". Просто отдайте эту функцию профессионалам. Проверить профпригодность можно вопросом: "а что такое TIA-942?".

“Думаю, что пока эту проблему не побороть никак. Современный тренд такой, что от падения серверов защищаются тем, что строят распределённые системы, которые не обращают на это внимания, потому что работают сразу на большом количестве оборудования”.

Сталкивались ли вы с падением серверов или глобальным отказом сервисов? Как это повлияло на ваш бизнес и как вы успокаивали своих клиентов? Делитесь своим опытом в комментариях, расскажите, как боролись с этой проблемой.

Ссылка на основную публикацию
Adblock detector