Для определения параметров проекта важно учитывать ограничивающие факторы, связанные с возможностью сайтов (источников) передавать информацию.
Эти ограничения скорее зависят от возможностей источников, нежели являются ограничениями платформы МС. Каждый сайт может выдерживать определенный уровень нагрузки по количеству обращений к его серверу в единицу времени. Каждое дополнительное обращение к сайту увеличивает подобную нагрузку. Чем больше пользователей заходит на сайт, тем больше становится нагрузка, тем сложнее движку сайта с ней справляться. Соответственно, если нагнать на сайт ботов путем бездумного и глупого парсинга, то сайт ляжет.
Кроме того, невозможно собирать данные о транзакциях. Информация, которая не воспроизводится через эмуляцию действий человека и не может быть скопирована с сайта, для парсеров будет недоступной.
Раньше для мониторинга сайтов использовались специальные программы-парсеры, в основном написанные индивидуально для разных заказчиков, которые ежедневно заходили на сайты интернет-магазинов и открывали множество страниц с товарами, тем самым создавая значительную нагрузку на сайты, замедляя их работу или даже могли привести к недоступности ресурса. Такое положение дел не устраивало владельцев крупных интернет-магазинов и на рынке стали появляться специальные
инструменты для защиты от парсинга — системы защиты от ботов.
Профессиональные решения для мониторинга информации на сайтах подходят к процессу сбора данных ответственно, стараясь максимально сократить количество запросов и не допускать повышенных нагрузок на сервера, чтобы предотвратить их перегрузку.
Система ведёт как полноценный браузер типового пользователя, отправляя идентичные запросы к сайту, как если бы это делал реальный посетитель сайта, вплоть до эмуляции движения мыши. Это делает робота-сборщика неотличимым от обычного покупателя, а блокировать контент для реальных пользователей не станет ни один магазин.
Таким образом даже самые технологичные системы блокировок не могут полноценно определять и препятствовать работе программ для сбора данных.