Проблемы недоступности CAPTCHA: альтернативы визуального теста Тьюринга в Интернете

Статья — Опубликовано Bazel в 04/11/2007 - 23:12

в категориях:

В чем проблема?

Веб-сайты с информацией, предназначенной для массового потребителя (сайты по продаже билетов на поезда, самолеты, концерты), а также предоставляющие различные формы автоматизации (почтовые сервисы, блоги и доски объявлений), часто принимают меры для обеспечения доступности своих услуг пользователям при одновременном противодействии web-роботам.

В настоящее время наиболее популярным решением является использование графического представления текста при регистрации или при добавлении комментариев. Сайт пытается проверить, что текущий пользователь действительно человек, а не машина, — требует пользователя прочитать искаженный набор символов с растрового изображения и ввести эти символы в одно из полей формы.

Ниже представлен ряд изображений, применяемых в CAPTCHA на известных сайтах:

Изображения для CAPTCHA при создании почтового ящика на yandex.ru Изображения для CAPTCHA на почтовом сервисе Gmail от Google Изображения для CAPTCHA при регистрации в системе WEBMONEY TRANSFER

Исследователи из Университета Карнеги-Меллона первыми исследовали этот метод и назвали его "CAPTCHA" (Completely Automated Public Turing test to Tell Computers and Humans Apart, Полностью автоматизированный открытый тест Тьюринга по распознанию людей и машин). Различные группы работали над проектами, похожими на исходную технологию, и в этой статье термин "CAPTCHA" используется по отношению ко всем этим проектам. Тест Тьюринга, названный по имени известного ученого в области вычислительной техники Алана Тьюринга, — это любой набор тестов, сконструированный для того, чтобы отличить человека от программы.

Этот тип визуальной и текстовой проверки доставляет массу неудобств для пользователей с плохим зрением, слепотой или неспособных к чтению. Естественно, это изображение не имеет никакого сопроводительного текста, так как этот текст распознала бы любая автоматизированная система. По многим причинам такой тип проверки препятствует пользователям с физическими недостатками создавать учетные записи, писать комментарии или делать покупки на сайтах, использующих CAPTCHA, а это означает, что тесты CAPTCHA не могут опознать пользователей с ограниченными возможностями как людей, а не как программу.

Ложное ощущение безопасности

Важно заметить, что, по-видимому, любая система безопасности может быть разрушена заинтересованными в этом лицами. Например, спамеры могут заплатить программисту, чтобы он написал программу, которая бы посылала изображения CAPTCHA человеку-оператору, который смог бы без труда распознать сотни таких изображений в час. Эффективность систем визуального контроля низка, а их пригодность сводится к нулю там, где они в большинстве случаев используются.

История о том, как тесты CAPTCHA внедрялись все эти годы, поучительна. Все больше сайтов используют тесты CAPTCHA, потому что раньше их ресурсы легко подвергались воздействиям со стороны спамеров, анонимных лиц или хакеров.

Сейчас CAPTCHA очень часто используется при добавлении комментариев на различных сайтах, форумах или персональных блогах. Многие блогеры заявляют, что применение CAPTCHA эффективно в борьбе со спамом в комментариях, но есть и непопулярная точка зрения, что существуют другие методы противодействия спаму в комментариях, который был бы более эффективным — и в то же время доступным для пользователей с ограниченными возможностями.

Некоторые признаки этого ложного ощущения безопасности проявились с первым опубликованием этого документа. Одними из участников проекта CAPTCHA в Университете Карнеги-Меллона была группа людей, намеренная ликвидировать новые тесты CAPTCHA в том виде, в каком они были созданы. Одна из первых зарегистрированных атак на системы с CAPTCHA была предпринята студентом этого же университета. Он использовал изображения CAPTCHA для ограничения доступа на веб-сайт для взрослых, таким образом позволив обойти эту систему любому заинтересованному человеку. Веб-ресурсы с высокой посещаемостью всегда рискуют быть атакованными с помощью методов социальной инженерии, — когда все тесты распознаются людьми, иногда за совсем небольшую плату, чтобы обойти сотни, если не тысячи таких тестов за час.

Другие проекты, такие как BREAKING, AICAPTCHA и PWNTCHA представили методологии и результаты, показывающие, что многие системы можно обойти при помощи компьютера с вероятностью от 88% до 100%, используя оптическое распознавание знаков. Схема BREAKINGOCR по взлому CAPTCHA работает на PHP и ASP-системах, в которых идентификаторы сессий кэшируются и повторно используются, чтобы обойти некоторые популярные схемы CAPTCHA. Атака "Screen Scraper", предложенная Anti-Phishing Working Group, обходила метод PINGUARD с помощью захвата картинки с экрана, когда пользователь переходил к полю ввода секретного кода.

Это логическая ошибка — называть CAPTCHA панацеей против спама. Даже 10% точности атакующих программ, способных создать сбой в системе, достаточно, чтобы снизить ценность этого метода. Также ошибочно верить в то, что внедрение CAPTCHA на больших сайтах является подтверждением ими борьбы со спамом. В самом деле, часть методов также эффективны как CAPTCHA без требования различных действий от пользователя, которые вызывают проблемы доступности и неудобства в пользовании сайтом.

Иерархия потребностей

Сайты, использующие подтверждение действий пользователями, имеют совершенно разный уровень потребностей. Эти потребности соответсвуют определенной иерархии. Чем выше уровень в иерархии, тем контроль становится более жестким.

Привилегии

Большинство систем обеспечивают безопасность в той или иной форме, чтобы дать привилегии какой-либо группе пользователей. Идентификация привилегированного пользователя без программы идентификации личности — современный механизм для большинства защищенных сайтов в Интернете. Вы можете создать учетную запись на любых почтовых сервисах, порталах, интернет-журналах и форумах без какого-либо подтверждения вашей личности, таких как паспорт, водительские права или номер автомобиля. В такой ситуации сама по себе безопасность выходить на первый план, пока важные сведения, такие как сведения о кредитной карте, хранятся на таких сайтах.

Я — человек

Часто используются системы, предлагающие заманчивые возможности, особенно, когда пользователи могут получить их анонимно. Способность создавать несколько аккаунтов одним человеком часто является поводом для использования там тестов Тьюринга. Понятно, что пользователи, посещающие сайты, не могут использовать ресурсы так же быстро, как программы, предназначенные для получения и использования бесплатных услуг. Такие сайты хотят дать свободу действий людям, в то же самое время игнорируя доступ роботов к этим ресурсам.

Я — уникальная личность

Выше в нашей иерархии находится индивидуальность каждого человека. Личность человека (включая такие детали как национальность, его собственность или даже индивидуальные черты) требует установления для выполнения множества важных действий: от финансовых операций до защиты медицинской и юридической информации. Все это становится все более и более доступным в сети, включая интернет-выборы, которые проводились в Швеции, Швейцарии, Франции, Соединенном Королевстве, Эстонии и США.

Важно определить способы проверки личности пользователя, в то же время удовлетворяя потребности всех потенциальных пользователей. Ошибки могут заключатся как в неудобстве использования в моделях, основанных на привилегиях, так и в ущемлении основополагающих прав человека в некоторых системах идентификации.

Возможные решения проблемы

Существует множество методик по предотвращению создания и использования мошенниками счетов и учётных записей. Одни из них могут быть такими же эффективными, как и методы визуального контроля, но в то же время более доступными для людей с ограниченными возможностями. Другие могут содержать основную идею доступности. Ниже перечислено семь альтернативных методов, каждый со своими достоинствами и недостатками. Многие можно использовать уже сегодня, в то время как некоторые рассчитаны на ближайшее будущее, когда проблема визуального распознавания уже может стать неактуальной.

Логические вопросы

Цель визуальной проверки состоит в том, чтобы отличить человека от машины. Единственный разумный путь для такой проверки — использование логических вопросов. Простейшие математические задачки, логические вопросы и тому подобное могут создать противодействие роботам, по меньшей мере в местах, где вероятность их использования наиболее велика.

Проблемы: пользователи с познавательными расстройствами все равно могут иметь трудности. Кроме того, ответы должны обрабатываться с достаточной гибкостью, если вопросы требуют ответа в свободной форме. Системы должны поддерживать обширное число вопросов, или перемещать их программно, чтобы предотвратить их обработку роботами. Такой подход также неудачен при задействовании человека-оператора со стороны злоумышленников.

Звуковое сопровождение

Проверка с помощью вопросов хороша, однако она все равно доступна роботам. Таким образом, разумный способ попытаться решить эту проблему — предложить другой нетекстовый метод, использующий то же содержимое, что и текстовый. Почтовый сервис Hotmail снабжает изображения CAPTCHA звуковым файлом, который можно прослушать, если визуальный проверка не подходит пользователю.

Однако, согласно статье CNet, звуковое сопровождение на Hotmail, которое искажено, чтобы избежать распознавания с помощью программ, непонятно даже четверти хорошо слышащих людей. Пользователи, не имеющие звуковой карты или работающие в шумной обстановке также "окажутся за бортом". Так как текст воспринимается на слух, пользователям часто приходится записывать его, прежде чем ввести, — что очень неудобно. Хуже всего то, что некоторые реализации этого метода основаны на JavaScript или сконструированы таким способом, что слепые пользователи не могут использовать этот метод. Программы для распознавания голоса, с другой стороны, даже могут иметь больший успех, чем аналогичные для оптического распознавания CAPTCHA.

Ограниченные аккаунты

Пользователи бесплатных аккаунтов очень редко нуждаются в полном и немедленном доступе к ресурсам сайта. Например, пользователям, которые ищут билеты на концерт, услуга поиска может быть необходима только три раза в день, а новым пользователям почтовых сервисов — отправка всего нескольких сообщений. Сайты могут создать правила, ограничивающие частоту пользования услугами явно (то есть, закрыв аккаунт на часть дня или ограничивая количество запросов) или неявным образом (замедляя время ответа). Создание ограничений для новых пользователей может быть эффективным методом, сделав часто посещаемые сайты непривлекательными для роботов.

Недостаток такого подхода в том, что выбор пригодного способа ограничений ведется методом проб и ошибок. Это требует от разработчиков отслеживания статистики по разным группам пользователей, а также определения различий между ними.

Неинтерактивный контроль

Хотя CAPTCHA и другие интерактивные подходы к сдерживанию спама иногда эффективны, но они безусловно делают работу с сайтом более трудной. Часто существование множества неинтерактивных механизмов для защиты от спама или другого недопустимого контента является совершенно излишним.

Этот раздел содержит лишь два неинтерактивных подхода: фильтрование спама (spam filtering), в котором автоматически оценивается содержание запроса, и эвристический контроль, в котором оценивается поведение пользователя.

Фильтрование спама (spam filtering)

Приложения, использующие стоп-слова для фильтрования спама или байесовское фильтрование для обнаружения других шаблонов, соответствующих спаму, очень популярны и вполне эффективны. В то время как такие системы могут время от времени принимать ошибочные решения, правильно настроенные системы так же эффективны, как и CAPTCHA, к тому же они избавляют пользователя от дополнительных неудобств, связанных с распознаванием.

Большинство программного обеспечения для создания блогов имеет возможности фильтрования спама или позволяет подключить плагины с такой возможностью. Многие из таких фильтров могут автоматически удалять сообщения, которые с определенной точностью похожи на спам или отмечать сомнительные сообщения для ручной проверки. Более развитые системы могут отслеживать частоту появления сообщений и запрещать доступ пользователям по IP-адресу, временно или навсегда.

Эвристический контроль

Эвристика — это способ принятия решений, предполагающий использование метода проб и ошибок и других неформализованных методов. Можно определить присутствие робота (программы) на основе объема данных, запрашиваемых пользователем, совокупности посещенных им страниц, IP-адресах, методах ввода данных или другой получаемой идентифицирующей информации.

С другой стороны требуется тщательное наблюдение за данными на сайте. Если алгоритмы сопоставления с образцом не могут обнаружить подходящих эвристических аналогов в большинстве случаев, тогда такой метод не подходит.

Другой эвристический подход (KILLBOTS) связан с использованием изображений CAPTCHA. Системы, спроектированные для противодействия DDoS-атакам, блокируют атакующие программы, которые совершают часто повторяющиеся запросы на получение определенной страницы, наряду с этим защищая обычных пользователей. Когда нагрузка на сервер снижается до определенного уровня, процесс идентификации полностью устраняется.

Единые идентифицирующие системы

Майкрософт (Microsoft) и консорциум Liberty Alliance пытаются учредить "единую идентификационную" систему, которая может позволить пользователю создавать аккаунт, настраивать свои предпочтения, платежную информацию и другие сведения, а также предоставлять эти данные всем сайтам, использующих такой сервис. Этот тип систем может предоставить более доступную форму идентификации пользователей в Интернете.

Единый вход в систему

Достаточно иронично, но паспортные системы — одни из тех систем, которые в настоящее время используют методы визуального контроля. Сервисы с единым входом в систему должны стать в числе наиболее доступных в Веб, предлагая свои услуги пользователям с ограниченными возможностями. Кроме того, использование этих систем должно быть повсеместным, чтобы действительно решить обозначенные в этой статье проблемы раз и навсегда.

Публично открытые инфраструктурные решения

Другой подход предлагает использование сертификатов для тех пользователей, которые желают пердоставить свои идентификационные данные. Сертификат может выдаваться либо лично, по запросу каждого пользователя, либо при предъявлении сертификатов выданных другими проверенными организациями, такими как правительства. Такой тип систем реализуется для организации защиты веб-страниц и для аутентификации на почтовых сервисах.

Затраты на создание поддельных сертификатов должны увеличиться на столько, чтобы в большинстве случаев сделать неприемлемой цену их производства. Сайтам пришлось бы использовать механизмы, которые широко распространены в агентах пользователей.

Биометрия

В последнее время в области биометрических технологий разрабатываются все более надежные методы идентификации пользователей. Множество тестов, от снятия отпечатков пальцев и сканирования сетчатки глаз до анализа ДНК обещают сделать идентификацию личности более официальной, эффективно ограничивая возможности спамеров по созданию бесконечного числа почтовых аккаунтов. Компания Майкрософт представила новую биометрическую систему в своей операционной системе Longhorn (ныне Vista), укомплектованную новым надежным коннектором для получения таких данных. Весьма вероятно, что биометрия будет использоваться и на сервисах с единым входом (single sign-on) в систему.

С другой стороны, есть и недостатки. Проникновение на рынок биометрического оборудования займет несколько лет; также существуют некоторые политические и социальные проблемы, которые могут сдерживать этот процесс. Также при создании биометрической системы должен учитываться тот факт, что не все люди имеют вышеупомянутые физические признаки: например, сканирование сетчатки глаз невозможно для пользователей, страдающих врожденной слепотой.

Другие подходы

Подход, который отчасти популярен там, где необходима идентификация, — это использование имеющихся объектов идентификации, таких как кредитные карты и национальные удостоверяющие документы, например, номера социального страхования (SSN) в США. Несмотря на то, что эти системы обеспечивают простой способ идентификации пользователей в сравнении с более дешевыми системами, их полезность снизилась вследствие их ненадежности. Кроме того, системы, собирающие такие сведения с большого числа пользователей, становятся привлекательным объектом для кражи идентификационных данных.

Не так давно, сервис Google посылал ключи при создании аккаунта для новых пользователей с помощью SMS-сообщений, таким образом создавая различного рода барьеры, например, для тех, у кого нет мобильного телефона или нет возможности использовать его в момент регистрации. Также SMS-функции недоступны для пользователей, страдающих слепотой. Все это ограничивает рамки, в которых такого рода системы могут использоваться. К сожалению, система создания аккаунтов у Google всё ещё требует CAPTCHA в дополнение к этой мере безопасности.

Выводы

Сайтам с ценными ресурсами и миллионами пользователей всегда будут нужны системы контроля доступа, которые ограничивают широко распространенные нарушения. В этом случае рационально использовать несколько подходов одновременно, включая визуальные и звуковые CAPTCHA. Однако, необходимо отметить, что пользователи будут иметь определенные трудности, используя эти системы. Сайтам необходимо гарантировать, что пользователи с ограниченными возможностями будут иметь несколько способов взаимодействия с ресурсами сайта.

Механизмы контроля доступа не должны использоваться в качестве решения, особенно, когда есть другие системы, которые не только более доступны, но возможно и более эффективны. Настоятельно рекомендуется, чтобы небольшие сайты приняли на вооружение системы фильтрования спама (spam filtering) и/или эвристического контроля вместо CAPTCHA.

В конце концов, новые подходы, сконцентрированные на использовании исключительно визуальных или звуковых способов для контроля доступа, таких как "PIN Guard", упомянутого выше, должны исчезнуть до тех пор, пока не будет создано надежного метода для пользователей, у которых нет возможности самим подтвердить свою личность. Выгода от кратковременной защиты не должна быть более важной, чем свобода доступа пользователей к личным важным данным, таким как их финансы.

Статья основана на оригинальном документе W3C — Inaccessibility of CAPTCHA: Alternatives to Visual Turing Tests on the Web.