Как обойти защиту от парсинга и не навредить сайту
Выясняем у эксперта по сборам данных в Metacommerce
Поговорили с руководителем отдела сборов в Metacommerce Владимиром Кучеренко о парсинге цен, проблемах при выборе неправильной методологии сборов и о том, стоит ли защищать сайт от парсинга, если все магазины подсматривают цены друг у друга.
— Владимир, расскажите о практике парсинга цен в современном e-commerce: кто этим занимается, как давно?
— Парсингом занимаются все крупные ритейлеры на рынке: DNS, Ситилинк, Эльдорадо, Связной и другие. Это позволяет им вести эффективное и конкурентное ценообразование, быстро реагировать на рыночные изменения и тем самым получать больше прибыли и увеличивать товарооборот.
В конце 2000-х — начале 2010-х компании старались своими силами собирать информацию о ценах конкурентов, но магазинов становилось больше, рынок рос и насыщался новыми товарами. Заниматься этим самостоятельно становилось проблематично и невыгодно. Приходилось искать высококвалифицированных специалистов по парсингу. Однако с точки зрения конечного результата для бизнеса намного выгоднее оказалось обращаться в специализированные компании, которые занимаются сбором данных.
— Расскажите, какие проблемы может вызвать неправильный подход к парсингу, агрессивный сбор данных? Может ли это стать причиной замедления или отказа работы сайта ритейлера?
— Безусловно, некоторые компании специально занимались DDoS-атаками, чтобы «положить» сайт конкурента и увеличить поток реальных покупателей на свои ресурсы. Другие из-за низкой квалификации случайно организовывали DDoS-атаку парсерами. Чтобы защитить данные от конкурентов, активно начинают продвигаться системы по защите от DDoS-атак и ботов.
Первыми такими системами становятся тесты CAPTCHA или «капча», как их называют в рунете. Но она, увы, не стала стопроцентной защитой от ботов. На рынке появляются сервисы по «разгадыванию» капчи за копейки. Затем уже появляются скриптовые проверки на реальный полноценный браузер, которые принимают удар ботов на себя и снижают нагрузку на сайты ритейлеров.
Агрессивный парсинг может повлечь за собой полный отказ ресурса из-за большого количества запросов на сервер и, как следствие, невозможность сбора данных. Напротив, при осторожном и более профессиональном подходе целевой ресурс практически не заметит того, что кто-то парсит их данные, ведь вся активность будет как у обычного пользователя.
При непрофессиональном, бездумном подходе к парсингу конкуренты сразу могут заметить, что на их сайте ведётся какая-то подозрительная деятельность. Например, они могут увидеть, что в ночное время количество обращений пользователей больше, чем днём, либо примерно равно. Это, в свою очередь, может повлечь за собой блокировку целых подсетей IP-адресов, что может сказаться на реальных посетителях интернет-магазина.
— Существует ли классификация парсеров, какие из них самые опасные?
— Самые опасные — это «кривые» самописные программы от неизвестных авторов. При неправильной настройке и конфигурации они могут вызвать DDoS-атаку на сервис, либо повлечь блокировку IP-адресов.
— Если все магазины подсматривают друг у друга цены, нужно ли защищать сайт от парсинга?
— Это уже решать самим ритейлерам. Капчи и защиты от ботов зачастую ошибочно определяют реального человека как бота, сложность капч растёт и реальный человек не всегда с первого раза правильно их разгадывает. Клиент получает негативный опыт от посещения ритейлера и зачастую просто переходит на другой сайт, где его не будут проверять на бота. Таким образом, подобные ограничения и проверки значительно снижают прибыльный трафик в интернет-магазине. К этому ещё можно добавить увеличенное из-за проверок время для доступа к покупкам, что тоже не считается юзер-френдли.
— Сбор данных у нас выполняется с максимально приближённой эмуляцией поведения реального человека. Посещение сайта происходит с реальных полноценных браузеров и операционных систем, что позволяет эффективно обходить бот-защиты и ничем не отличаться от обычного посетителя. Мы контролируем частоту запросов к сайту, чтобы не навредить ресурсу и не быть заблокированными.
Это позволяет эффективно собирать данные и предоставлять их нашим клиентам. Целевые сайты также проверяются на наличие API и его возможностей, что позволяет получить больше данных за меньший промежуток времени, не нагружать сайт и экономить ресурсы.