Что можно сказать о поведении пользователей, анализируя спам-ботов

В этой статье я хотел бы рассказать об интерактивном взаимодействии пользователей с одним из моих сайтов, а также о проблемах со спам-ботами. В конце я проведу аналогию действий людей на информационном сайте с более прибыльными вариантами Интернет-ресурсов.

Еще в далеком 2010-м году я запустил «Портал украинского языка» [http://pravila-uk-mova.at.ua/, Yandex: pravila-uk-mova.at.ua, Google: pravila-uk-mova.at.ua]. Тогда я еще учился в школе и каким-то образом наполнял сайт материалами.

Его основу составляли и сейчас составляют правила украинского языка, взятые со справочника Лысенка, которые пользуются большой популярностью как среди постоянных посетителей сайта, так и среди пользователей поисковиков.

Сайт создавал на платформе UcoZ, лишь немного доработав шаблон. У меня тогда было много подобных сайтов, на которых, кстати, я тренировался и изучал HTML и CSS (хотя у меня было побольше практики на серфинге по другим сайтам, наполнении сайта контентом, его раскрутке и продвижении).

Примерно в конце прошлого [2014] года мне пришло предложение сдать в аренду место для рекламы на сайте, или продать его за некую сумму денег. Рекламой являлся один с роликов 100500 в гоблинском ковере (не самом цензурном). Хотя тогда для меня сумма казалась значимой, я, конечно же, отказался, так как не мог позволить подобному контенту попасть на мой сайт.

«Портал» является самым популярным справочником украинского языка, однако на время такого предложения Яндекс убрал ресурс на вторую позицию поисковой выдачи, предоставив первое место сайту-конкуренту. Администратор сайта-конкурента, кстати, согласилась разместить данный видеоролик на своем сайте и он там был ровно до того момента, пока Яндекс не отдал «Порталу» его честное первое место в поисковой выдаче и я не написал администратору сайта-конкурента. Но, разумеется, видеоролик был не ключевым фактором „поискового признания“ «Портала», ведь мне пришлось достаточно много поработать над SEO ресурса.

В последнее время я не имел возможности его администрировать, а на сайте был чат, да и сейчас есть. К сожалению, боты смогли преодолеть стандартную защиту чата, а придумать что-то оригинальнее я мог, так как UcoZ не позволяет вносить изменения в свое программное ядро.

Самой полезной и практичной функцией любой системы управления сайтом, на мой взгляд, является отслеживание IP-адресов посетителей и возможность блокировки доступа. К счастью, UcoZ предоставляет такую возможность.

Я, время от времени, удалял рекламу и нецензурную лексику в чате сайта, однако мое время в последние месяцы было сосредоточено на другой работе.

Но 2 дня назад я получил сообщение от парня, предлагающего покупку, который деликатно намекнул на то, что чат «Портала» немного „загажен“.

На сентябрь каждого года приходится пик активности — в этом году цифра близилась к 7 000 посетителей за день (в каждом предыдущем году эта цифра была примерно на 1 000 людей меньше).

Так как пользователи сайта любят пользоваться чатом и часто оставляют в нем классные комментарии, я решил, что стоит заняться чисткой. Кроме удаления не самой приличной рекламы, мне предстояло заблокировать IP-адреса всех ботов, чтобы предотвратить подобные инциденты и сократить их количество.

Хотя платформа UcoZ ограничивает полет моей фантазии, я, все же, добавлю минимальную защиту от спама. В основе идеи стоит тот факт, что в большинстве спам-сообщений присутствуют ссылки, которые можно вычислить перед тем, как разрешить отправку сообщения.

Увы, почти весь чат был заполнен рекламой и я решил оформить список спам-сообщений:

  • Девушки на работу дома. Приглашаем всех девушек на работу site1.com — нестандартный вариант для домохозяек, для которого основным требованием является наличие веб-камеры
  • Сайты знакомств — реклама для тех, кто хочет познакомится и не только
  • Покупка футболок [в Америке]
  • «Класс онлайн игры на pc объявлять собственностью...»
  • Была одна реклама американского магазина продажи тканей (честно говоря, я не до конца понял суть сообщения)
  • "Short hairstyles are bold and breezy..."
  • Метеопортал, который «собирает наиболее полную статистику о погоде»
  • Конференция писателей
  • Конференция политиков
  • Несколько сообщений на английском о том, какая же «ужасная» украинская власть
  • «Наташа заметила, как леденеет взгляд ее партнера...»
  • Классные цветные принты... в Америке

Вообще чат сохраняет до 50 сообщений — самые старые очищаются (то есть посетители могу). Немного подводя итоги, приведу статистику:

1) За последние 25 дней на сайте добавилось 50 сообщений, с которых только 4 (8%) были от реальных людей, а остальные 46 (92%) являлись спамом.
Учитывая среднюю посещаемость за этот период 4 200 чел./день, то на каждых 2 000 активных людей найдется 1 бот, который обойдет простую капчу и вставит свое сообщение в чат.
Как я уже указывал, на начало осени падает пик активности (примерно такой же, но немного меньший, бывает в конце весны). Обычно в это 50 сообщений от реальных пользователей набиралось за месяц (то есть где-то за такое же время). В данном случае было всего лишь 4 — то есть в 12,5 раз меньше. Возможно, чат был принят за доску объявлений. Но, вообще, посетители любят отвечать на вопросы других, хотя не каждый делает это охотно.

Вывод 1: посетители боятся писать в заспамленном ботами месте.
Вывод 2: вопросы стимулируют общение, а потому и посещаемость.

2) Примерно на каждых 20 сообщений от реальных пользователей (времена, когда сайт не попал в базы спамеров) было сообщение с текстом «500» — это цифра, которая автоматически вставляется возле поля ввода сообщения платформой UcoZ и обозначает то, сколько еще символов может напечатать посетитель (во время ввода сообщения она уменьшается).
Иными словами, 5% пользователей воспринимает эту цифру как капчу (хотя там есть ярко выраженная капча). Стоит отметить, что это те пользователи, которые не догадались, что значат цифры и не исправились, и те, кто все же решился отправить сообщение.

Вывод 3: лучше избегать двузначных и непонятных надписей на сайте.

3) 60,8% ботов отправляют сообщения с эротической рекламой, 6,5% — онлайн-игры, 8,7% — реклама в сфере продаж и столько же реклама сайтов и конференций, 15,3% — остальные сообщения геополитически-пропагандистского содержания и сообщения, смысл которых не был понятен, так как вмещалось лишь 500 символов.

Вывод 4: капча не поможет избавится от спам-ботов, зато это отличный способ отпугнуть клиента.
Вывод 5: если хотите поставить спам фильтр, просто блокируйте фразы «знакомств» и «секс».
Вывод 6: старайтесь вмещать свое коммерческое предложение в минимальное количество символов — примерно 500, но лучше в 300, а если сократите его до 140 без потери содержания, то можно и твитнуть.
Вывод 7: если не можете вместить свое предложение в 300 символов без потери смысла (а так очень часто бывает), сделайте так, чтобы хотя бы в начале было понятно, о чем вообще речь.

4) 84,7% спам-сообщений имеют ссылки на другие сайты. 82,6% спам-ботов используют HTML-коды, с которых почти все содержат ссылки на посторонние ресурсы.

Вывод 8: если нет необходимости позволять пользователям вставлять ссылки и вы хотите улучшить свой фильтр, просто блокируйте сочетания "<a href=" и "http://".

5) Я заблокировал 14 IP-адресов (напомню, сообщений было 46). Из них 1 бот написал 7 сообщений, 3 бота — по 5 сообщений, 1 бот — одно сообщение, 4 бота — по 3 сообщения, 3 бота — по 2, и всего лишь 2 бота написали по одному сообщению. Плюс платформы UcoZ состоит в том, что я могу получить список IP-адресов ботов и заблокировать все неугодные мне IP.
Однако для просмотра IP каждого сообщения мне приходилось отдельный раз щелкать по очень маленькой кнопочке и копировать адрес со всплывающего окошка, а система является с закрытым исходным кодом и потому я с этим ничего не мог сделать. Но, при этом, использование платформы UcoZ помогло мне быстро создать сайт, не имея достаточных глубинных знаний в области веб-разработки на момент запуска «Портала».
Поскольку работа была достаточно рутинной, я решил сделать подсчет уникальных ботов — оказалось, что они имеют свою базу сайтов и время от времени «проходятся» по ней.

Вывод 9: блокировать IP-адреса спам-ботов не такая уж и бесполезная работа, как кажется.
Вывод 10: иногда бывает полезно создать сайт с минимальными затратами ресурсов, используя готовые решения.
Вывод 11: но не используйте для этого SaaS-платформы типа UcoZ по двум причинам: вы не сможете внести изменения в систему и будет трудно «отбить» адрес своего сайта.
Вывод 12: на более-менее посещаемых ресурсах должна быть система отслеживания спамеров, блокировки IP-адресов и такая система должна быть удобной.

Надеюсь, пост интересный и информация полезная. В следующий раз я рассмотрю этот же сайт, но немного в ином аспекте — с точки зрения поведения и интересов посетителей ресурса, а также их браузеров и платформ, основываясь на данных Яндекс.Метрика и UcozStatistics, но эту статью я уже выложу на своем блоге, о котором упоминал выше.

Поделиться в соцсетях: Вконтакте Facebook Twitter Mail.ru Google plus
Комментарии:
Подождите, пожалуйста. Загружаются комментарии...