MegaIndex - остановить безумие!

В этой заметке речь пойдет о сервисе www.megaindex.org и его "ненасытных" ботах. Сразу оговорюсь - вполне возможно, что кому-то этот сервис очень даже нужен. Однако для себя никакого, даже теоретического, применения не нашел.

В тоже время именно "ненасытность" и "наглость" его ботов заставляет принимать какие-то меры для защиты серверов от излишних нагрузок. Нет, конечно же, он не "валит" сервер, не создает критичных нагрузок (по крайней мере на моих серверах и серверах моих клиентов), но все же, временами ощутимо надоедает.

Вот пример из жизни полученный простым анализом логов не самого посещаемого ресурса за один из дней:

 Кол.-во запросов% количества запросов от общего
Всего1102980100%
Google240482.18%
Yandex537364.87%
MegaIndex59794854.21%

Более 50% запросов к сайту было осуществлено ботом MegaIndex! Зачем ему столько? Никто его туда не приглашал! Я сторонник лояльного отношения ко всяким разным ботам, но не в таких же количествах!

На самом сайте компании MegaIndex некий Хиврин Николай радостно написал:

За 5 дней индексатор уже обработал более 60% сайтов в СНГ и более 7% сайтов в мире.

Извините, но это же БЕЗУМИЕ!!! Весь интернет на локальном жестком диске? Зачем? Зачем такими темпами?

При этом этот бот начисто игнорирует директивы robots.txt.

И я вполне понимаю возмущения пользователей, там же на странице в комментариях, о том, что бот создает чрезмерную нагрузку на сервера. Ведь многие люди хостятся на самых обычных хостингах, которые, мало того, что будут притормаживать на таких нагрузках, так еще и имеют жесткие ограничения на использование трафика, процессорных мощностей и т.п. Да, возмущений не так много, но ведь мало кто из "держателей" сайтов вообще в состоянии проанализировать в чем проблема, почему в один прекрасный день нагрузка на сайт возрастает в разы, а целевых пользователей не добавляется. Также есть обсуждение поведения на форуме Searchengines - Неугомонный бот MegaIndex.ru/2.0.

Конечно, каждый решает для себя сам. И я не навязываюсь, но считаю, что от таких ботов нужно защищаться. Для тех, кто тоже хочет даю простой рецепт, как заблокировать MegaIndex бота и при этом не нагружать сервер.

Для тех, кто использует Apache - прописать директиву в .htaccess:

SetEnvIfNoCase User-Agent ".*MegaIndex" bad_bot
Deny from env=bad_bot

 

Для тех счастливчиков, кто уже отказался от Apache и использует nginx  - добавить в конфиг строки:

if ($http_user_agent ~* (MegaIndex) ) {
    return 403;
}

 

Такой конфиг заставит сервер для MegaIndex бота отдавать ответ "403 Forbidden" и больше не напрягаться. Все просто и легко.

У себя я еще и закрываю автоматически доступ по айпи в фаерволе, примерно так как описано в заметке "Элементы защиты от DDOS посредством nginx + ipfw".

Искренне надеюсь, что эта заметка кому-то облегчит жизнь.