Этот пост открывает цикл статей на большую и неприятную тему, которая касается всех участников веб-пространства. Мы попробуем разобраться в потенциальных причинах частичной и полной недоступности сайтов с плохим пингом, нагрузками, блокировками и т.д.
Что такое DDoS? Почему программисты ошибаются? Как застраховаться?
Повествование попробую вести понятным для широкого круга пользователей языком, дабы вывести на откровенный и полезный диалог. Начнем!
Одним из самых важных показателей комфорта жизни веб-ресурса является uptime. Фактически это время беспрерывной работы сайта. Чаще всего нам показывают это значение в процентах, то есть отношение времени штатной работы сайта к общему (день, месяц, год...) промежутку времени. Почти везде пишут про 99%, 99.99% или даже 99.(9)%. Однако никто не осмелится написать про 100%. Слишком большое количество вероятных факторов ежесекундно создает риск "падения" сайта. Начиная с нетрезвого экскаваторщика, заканчивая небесным светилом или мировым океаном.
Остановлюсь на главном, чтобы цель этого послания сразу была ясна.
Нам очень не хочется, чтобы какие-то из наших ресурсов прекращали свою работу даже на несколько минут. Это совсем не в наших интересах. Мы зарабатываем только тогда, когда все работает. Когда не работает - мы так же несём убытки. Даже если аккаунт платный, мы тратим огромное количество дополнительных ресурсов и бросаем все силы на скорейшее решение проблемы. Мы тратим реальные деньги на компенсации, мы теряем колоссальный нематериальный бонус – лояльность своих клиентов. Именно в наших интересах максимально быстрое решение глобальной проблемы. В наших интересах сделать так, чтобы подобное не повторялось в дальнейшем.
И, конечно, это касается не только нас, а абсолютно любого веб-сервиса и хостинг-провайдера.
Несколько примеров:
- 14 августа 2003 г., великий blackout: 40 млн. жителей США и 10 млн. жителей Канады просуществовали без электричества в течение 30 минут;
- 25 мая 2005 г., blackout в Москве: крупная авария в энергосистеме, в результате которой на несколько часов была отключена подача электроэнергии в несколько районов Москвы;
- 11 августа 2008 г., gmail: более 100 000 000 пострадавших около 2-х часов не могли воспользоваться почтовым сервисом Google, программный сбой;
- 1 апреля 2009 г., uCoz: в течение 3-х суток после глобального обновления системы сайты пользователей были недоступны разное время;
- 21 апреля 2011 г., amazon: неправильная настройка сетевого оборудования вывела из строя облачные сервисы, которые используют, например, Netflix, Zynga, Foursquare, Quora и Reddit; простой в работе - от 12-ти часов до 4-х суток;
- 6 марта 2011 г., masterhost: крупнейший российский хостинг-провайдер из-за проблем в дата-центре периодически "падал"; были недоступны разные сервисы, на разное время;
- 15 мая 2012 г., beeline: из-за обрыва на канале более 2-х часов были недоступны мобильная связь и мобильный интернет в 50 городах европейской части России;
- 18-22 марта 2013 г., spamhaus: зафиксирована сильнейшая в истории DDoS-атака на сервис Spamhaus; мощность атаки достигала 300 Gbit/s, что повлияло и на работу магистральных операторов связи.
Примеров уйма, каждый день здесь или там что-то выходит из строя. Масштабы разные.
Уверен, по каждому из приведенных случаев можно написать книгу: какие ресурсы были потрачены на устранение неполадок, какие правильные и неправильные решения принимались в авральном порядке, что было сделано, чтобы подобное не повторилось. Любой сбой это испытание, которое в конечном итоге, если не убивает - делает сильнее.
Так сложилось, что мне нравится работать с пользователями тесно. С кем-то даже немного неформально, чуть ли не по-дружески. Все чаще замечаю, что отношение к "падениям" всё более серьезное и обстоятельное. Это не просто крики и ругань, это искреннее желание понять причины, где-то даже посильно помочь в решении. Это, безусловно, положительная тенденция, и на нас она накладывает еще больше ответственности. Чем мы ближе, тем сильнее спрос.
По мере написания статей, ссылки на названия будут активироваться:
- Что такое DDoS?
- Как достичь максимального UpTime?
- Из чего состоит сетевая инфраструктура?
- Власть и закон
- Защита и диагностика
Ознакомиться с полным циклом можно по ссылке.