Подниму такую в тему в свете следующих причин:
Во первых, огромный респект, авторам популярных счетчиков, которые практически верно (10-15%) убирают посещения ботов из своей статистики...
После запуска сервера статистики на нашем портале, обнаружилось просто гигансткое количество различных самопальных ботов, которые занимаются поиском интересного контента... но, к сожалению, мало того, что они создают излишний трафик (5-8 раз превышает пользовательский!), кроме этого они "гадят" в силу плохого кода. Поэтому несколько замечаний, а именно:
1. Боты, сканирующие урлы с целью подбора паролей.
Ребяты! Не надо запрашивать ОДИН И ТОТ ЖЕ УРЛ, получив 404 по 20 раз! Новой инфы в ответах все равно не прибавится. Больше, того! Маленькая подсказка: часто боевые сервера кешируются nginx и на повторный запрос отдается копия из кеша, ваще без обращения куда либо... то есть это даже не просаживает по нагрузке... только забивает каналы связи.
2. Боты, сканирующие контент в поисках интересных ссылок.
Ребяты! Ну хотя бы начало и конец атрибута href="" надо распознавать верно! Не надо включать в ссылку ВСЁ до конца основного тега! Этот атрибут далеко не всегда пишут последним... там ещё много чего быват...
Ну и ещё, "мелочь" стырив страницу с 404 из-за кривой генерации урла, не надо давать на неё ссылку у себя... Вам это только в минус...
3. Боты, сканирующие урлы на предмет наличия себя (зараженность сервера)...
Ребяты! не надо ДОПИСЫВАТЬ ко всем урлам свои сигнатуры... фигня получается. Даже в виде get-параметров... особенно, когда они и так есть в урле... ну разве трудно проверить наличие вопросиков в урле и заменить на нужный символ?
4. Боты, тырящие "публичный" контент из каталогов public
А он далеко не у всех и всегда на самом деле публичен. Получив один раз 404 - нафига пыжится ещё раз по 10-30?
5. Думаю, несколько опреметчиво поступают совсем юнные писатели, которые выпускают бота "в свет" с того же самого (пусть и динамического) IP, с которого тут же лезут на страницу проверять содержимое...![:миг:](https://forum.ngs23.ru/static/img/graemlins/wink.gif)
Ваще такое осчущение, что тырящих ботов только у нас ещё нет...![:миг:](https://forum.ngs23.ru/static/img/graemlins/wink.gif)
Во первых, огромный респект, авторам популярных счетчиков, которые практически верно (10-15%) убирают посещения ботов из своей статистики...
После запуска сервера статистики на нашем портале, обнаружилось просто гигансткое количество различных самопальных ботов, которые занимаются поиском интересного контента... но, к сожалению, мало того, что они создают излишний трафик (5-8 раз превышает пользовательский!), кроме этого они "гадят" в силу плохого кода. Поэтому несколько замечаний, а именно:
1. Боты, сканирующие урлы с целью подбора паролей.
Ребяты! Не надо запрашивать ОДИН И ТОТ ЖЕ УРЛ, получив 404 по 20 раз! Новой инфы в ответах все равно не прибавится. Больше, того! Маленькая подсказка: часто боевые сервера кешируются nginx и на повторный запрос отдается копия из кеша, ваще без обращения куда либо... то есть это даже не просаживает по нагрузке... только забивает каналы связи.
2. Боты, сканирующие контент в поисках интересных ссылок.
Ребяты! Ну хотя бы начало и конец атрибута href="" надо распознавать верно! Не надо включать в ссылку ВСЁ до конца основного тега! Этот атрибут далеко не всегда пишут последним... там ещё много чего быват...
Ну и ещё, "мелочь" стырив страницу с 404 из-за кривой генерации урла, не надо давать на неё ссылку у себя... Вам это только в минус...
3. Боты, сканирующие урлы на предмет наличия себя (зараженность сервера)...
Ребяты! не надо ДОПИСЫВАТЬ ко всем урлам свои сигнатуры... фигня получается. Даже в виде get-параметров... особенно, когда они и так есть в урле... ну разве трудно проверить наличие вопросиков в урле и заменить на нужный символ?
4. Боты, тырящие "публичный" контент из каталогов public
А он далеко не у всех и всегда на самом деле публичен. Получив один раз 404 - нафига пыжится ещё раз по 10-30?
5. Думаю, несколько опреметчиво поступают совсем юнные писатели, которые выпускают бота "в свет" с того же самого (пусть и динамического) IP, с которого тут же лезут на страницу проверять содержимое...
![:миг:](https://forum.ngs23.ru/static/img/graemlins/wink.gif)
Ваще такое осчущение, что тырящих ботов только у нас ещё нет...
![:миг:](https://forum.ngs23.ru/static/img/graemlins/wink.gif)
"Только так, только личная инициатива и напряженная работа над собой. .. Нужно своей собственной рукой все делать" (с) В.В. Путин(а не на "вертикаль власти" надеяться)