Откуда взялась CAPTCHA?

Задача капчи заключается в распознании «роботов» и реальных пользователей, но где-то всё пошло по неправильному пути. Капча превратилась в невероятно назойливую технологию, которая постоянно считает человека ботом. Наиболее остро проблема стоит у пользователей мобильных платформ. Где же был поворот в никуда, почему технология стала приносить столько трудностей и есть ли способ борьбы – основные вопросы, требующие разбирательства.

Как появилась CAPTCHA?

В сети встречается мнение, что капчи придуманы Google для тренировки искусственного интеллекта, который управляет беспилотниками.

Captcha берёт за основу тест Тьюринга, способный различить человека и робота. Технология даже расшифровывается, как «полностью автоматизированный тест Тьюринга, различающий компьютер от человека.

Впервые появилась в 2000 году, тогда впервые успешно реализовали необычный фейс-контроль, способный отличить пользователя от бота. На тот момент боты в сети ещё только зарождались, но предусмотрительные разработчики уже начали с ними бороться. Без дополнительного контроля боты способны перегружать сервера и приводить к сбоям, блокирующим ресурс для реальных пользователей. К примеру, в 2000-2004 году до появления капчи бота легко было заставить зарегистрировать тысячи фейковых страниц или полностью заспамить форум сообщениями.

Чтобы предотвратить появление подобных ситуаций в Университете Карнеги-Меллона из США, был написан скрипт, требующий от пользователя ввести символы с картинки. Пользователям легко распознать буквы, которые находились под разными углами, имели искажения, помехи, искривления, разные шрифты и т. п. Компьютерам было невозможно распознать текст на картинке, так как требуется чётко задать алгоритм работы, а рандомные искажения делают это невозможным. С помощью столь элементарного барьера удавалось многократно снизить нагрузку на распространённые ресурсы, а также появилась возможность защититься от фейковых страниц и остальной деятельности роботов.

Как CAPTCHA стала полезной

Со временем капча стала слишком распространена, появились постоянные жалобы на необходимость постоянного ввода символов. В сообществе появились стремления найти достойное применение технологии. Уже в 2007 году впервые появилась reCaptcha, которая постепенно вытеснила простую картинку. После нажатия на кнопку подтверждения действия, отображаются картинки из старых газет или фото из не оцифрованных носителей. Преимущественно это сканы старых выпусков The New York Times.

С приходом новой технологии у аудитории пропала необходимость расшифровывать бессвязные символы, теперь мы стали участвовать в оцифровке прессы прошлого столетия. Одновременно выполняем подтверждение и добавляем слово из газеты. Недолго думая, Google приобрела технологию и задействовала для оцифровки книжной продукции.

Ежедневно пользователи интернет помогали расшифровывать по 100 млн. слов.

Развитие ботов также не остановилось, со временем они поумнели и научились распознавать текстовые коды reCaptcha. На борьбу с новой угрозой компания Google кинула новый алгоритм определения человека – это графические вопросы. Теперь предлагается найти среди девяти картинок определённые: с изображением котов, машин, витрин, фруктов, дорожных знаков и т. п. Технология получилась ещё эффективнее, а людям проще пройти тест. Длительный разбор текстовых капч постепенно отошёл в прошлое.

В новейшей версии reCaptcha человек только ставит галочку в окне «Я не робот», на этом процесс проверки часто остаётся завершённым. Алгоритм проверки сводится к анализу движения курсора. Бот всегда определяет самый короткий путь и идёт по прямой. Немаловажным критерием проверки является IP-адрес. Ещё не так давно сервис работал без нареканий и крайне эффективно, обе стороны были довольны результатом.

Что пошло не так?

Впервые сбои сервиса начали докучать пользователям смартфонов и планшетов. После входа в поисковой сервис Google, устанавливаешь выделение в соответствующем окне, а вместо подтверждения показываются графические картинки. Поиск определённых объектов не был сложной задачей, но часто встречались случаи, когда пройти тест становилось полностью невозможно. После решения задачи появлялись новые картинки и так по кругу, сколько бы не отвечали на вопросы.

Скоро, вслед за компанией Google, подобная проблема обнаружилась и на остальных ресурсах. Вся российская сеть столкнулась с потоком жалоб в разных направлениях: провайдеров, операторов, Роскомнадзора и Google. Поведение сайтов вызывает злость и раздражение, само по себе подтверждение человеческой сущности оскорбляет, а ещё в таких количествах – это вызвало гнев толпы.

Длительное время никто не мог толком объяснить причину и помочь пользователям, одни лишь отговорки и догадки. Массы тикетов в службу поддержки оставались неудовлетворёнными. Когда до специалистов дошли жалобы и их стало слишком много, начался поиск проблем. Во время тестирования были установлены одновременно несколько причин сбоев теста на «человечность».

В чём же причины сбоев?

Мы находимся в неудачном месте в неправильное время. Сервис reCaptcha проверяет пользователя по массе критериев, одним из ключевых является IP-адрес. У компании есть собственные базы IP-адресов, с которых поступает подозрительная активность. Обычно этими IP пользуются спамеры, роботы, злоумышленники, хакеры и т. д., которые создают повышенную нагрузку на сервера компании. Проблема не в блокировке конкретного IP, а в склонности роботов блокировать одновременно всю подсеть, в которую входят сотни или тысячи айпишников.

Чтобы сэкономить средства на обслуживании сетей, провайдеры вместе с мобильными операторами, склонны давать одинаковые IP-адреса сразу группе абонентов. Если среди пользователей завёлся бот или другая подозрительная личность, reCaptcha блокирует адрес. Под блокировку попадают не только боты, но и реальные пользователи на таких же IP-адресах. Из чёрного списка айпишники выходят, но находятся на «карантине» достаточно долго.

Получается следующая ситуация: находясь в одной части города, сервис безопасности не показывает картинку и пропускает дальше пользоваться ресурсом, а перейдя в другую часть – постоянно показываются тесты, иногда их невозможно пройти. Во время перемещения между станциями сети, смартфон попадает под действие разных подсетей. Иногда попадает в чистую сеть, а порой – в зону действия заблокированного IP-адреса. Конечно, ездить по городу в поисках чистой сети, не является достойным выходом из ситуации, но Google не оставляет выбора: или капча, или поездки.

Капчи применяются для тренировки ИИ, но что же конкретно пытается обучает Google:

временная блокировка серверов reCaptcha в России. В 2018 году Роскомнадзор гонялся за серверами Telegram, блокируя большие подсети. В то время под удар попали многочисленные сервера, не исключение и reCaptcha. Сам скрипт работает по алгоритму: клиентская часть написана на JavaScript, отвечает за отображение проверки и серверная часть - отправляет картинки и обрабатывает результаты. Получалось, что картинка капчи отображалась, но из-за блокировки сервиса, пользователи не могли пройти проверку. Сейчас сервера разблокированы и причина ушла в прошлое;
в системе генерируется подозрительный трафик. Есть вероятность, что блокировка сервиса распространяется исключительно на одного пользователя, если в процессе проверки были найдены различные подозрительные факторы. Что может стать причиной: вирусы, браузерные расширения. При отсутствии антивируса есть вероятность стать частью ботнета, тогда блокировка IP-адреса неизбежна;
на мобильной платформе отключен JavaScript, который желателен для обработки reCaptcha. Динамический язык предоставляет массу возможностей, которые могут находиться как в плохих, так и хороших руках. На многочисленных смартфонах, даже на iPhone, по умолчанию выключен JavaScript, от чего сервис может работать со сбоями или полностью не функционироватть.