В Google и других поисковых системах можно найти только часть информации, содержащейся в Интернете. Данные, хранящиеся в так называемом «глубоком» и «темном вебе», для них закрыты. Эта огромная параллельная вселенная служит как законным, так и незаконным целям.
Поисковые системы, такие как Google и «Яндекс», являются единственными воротами в онлайн для большинства пользователей Интернета: тот, кому требуется отыскать что-либо в мировой Глобальной сети, обычно вводит свой запрос в поисковую форму одного из этих сервисов и выбирает именно ту информацию, которая появляется в результатах поиска, — причем, как правило, только сайты, находящиеся на первых страницах поисковой выдачи. Но даже если бы у путешественника по просторам Всемирной паутины хватило терпения открыть все показанные ему тысячи ссылок, он увидел бы лишь часть того, что доступно в Интернете, потому что Google и другие поисковые машины вовсе не всеведущи. Если кому-то нужно скрыть что-нибудь в Сети от поисковиков, он может с легкостью сделать это.
В одних частях Интернета поиск очень прост, в других — сложен. Все зависит от того, какую информацию вы хотите найти и где. Спектр простирается от таких повседневных сайтов, как Google, до сомнительных порталов, торгующих нелегальными товарами. Мы продемонстрируем вам разные уровни видимости.
«Поверхностный веб»
Google и другие поисковые системы делают для нас видимым всевозможный контент: тексты, изображения, видео, онлайн-магазины, социальные сети, игры. То, что Google не находит в поверхностном Интернете, можно отыскать в «глубоком» или «темном вебе».
«Глубокий веб»
Библиотеки. Многие библиотеки не позволяют Google индексировать свои базы данных. Их можно обнаружить только через такие специальные сервисы, как Scirus, предназначенные для поиска информации в «глубоком вебе».
Музеи. Некоторые музеи уже перевели в цифровые форматы большую часть своих коллекций: экспонаты, каталоги, видео. Если ввести в Google поисковый запрос «Database» («база данных»), эти сокровища можно найти, только если повезет.
Пиратские копии. Такие хостеры, как Freedom Hosting, предоставляют анонимные хранилища данных в первую очередь для сайтов с пиратским содержимым. Поскольку на серверах выложен всевозможный нелегальный контент, Freedom Hosting часто подвергается атакам.
Организации. Правительства разных стран, некоммерческие организации, медицинские ассоциации, — все они имеют огромные фонды данных, но получить доступ к ним можно только с помощью специальных поисковых систем.
Динамический контент. Страницы, возвращающие содержимое в ответ на специфичные запросы, тоже не индексируются поисковыми машинами. На них можно попасть только в том случае, если вам известен их адрес.
Сайты с ограниченным доступом. Владельцы некоторых сайтов запрещают доступ к своим творениям поисковым роботам специальными командами, либо капчей или формой обязательной авторизации для пользователей. В результате информация на таких ресурсах не видна поисковым системам.
«Темный веб»
Анонимные пользовательские сети. Ресурсы для обмена файлами, сообщениями, мнениями на форумах и другой информацией с анонимным доступом, построенные на базе инфраструктуры Интернета или за счет прямого соединения между пользователями, содержат огромное количество всевозможных данных.
Торговля запрещенными товарами. Нельзя сказать, что бизнес по торговле нелегальными товарами в анонимных сетях процветает. Правда, время от времени торговцы предлагают краденые вещи, оружие, запрещенные вещества и поддельные документы.
«Глубокий веб»: больше, чем WWW
В Интернет есть огромные базы данных с различной информацией, в силу ряда причин недоступные для популярных поисковых систем. Пользователи могут получить доступ к ним лишь в том случае, если отправят к базе данных специальный запрос или зайдут на страницы, адреса которых им заранее известны.
Сейчас владелец каждого веб-сайта может сам определить, какая часть его контента должна попасть в индекс Google и других поисковых систем, и должна ли попасть туда вообще. Если владелец закроет доступ на свой ресурс для поисковых роботов, запретит незарегистрированным пользователям просматривать страницы или же не удосужится должным образом оптимизировать свой сервис, то его информация не появится в списках результатов поиска даже в том случае, когда на нее есть ссылки с десятков тысяч сайтов, проиндексированных поисковыми системами. При обычных обстоятельствах это гарантировало бы самое высокое место в результатах выдачи. Поисковые машины как бы слепы на один глаз — и показывают своим пользователям только часть того, что есть на просторах Интернета.
Хорошим примером «глубокого веба» являются каталоги библиотек. Хотя эти списки книг и журналов хранятся в основном на традиционных веб-серверах, доступ к ним разрешается только после регистрации, выполнить которую поисковые системы не в состоянии. Им остается лишь в некотором роде «посмотреть снаружи на запертую дверь» и идти дальше. То же самое относится к базам данных с информацией об авиарейсах, специальных медицинских материалах, различной производственной документацией, социальным сетям и т. д. Правда, Google, купив ITA Software (подразделение, разрабатывающее ПО для транспортной индустрии, ранее — независимая компания), решила хотя бы проблему с авиаперелетами: американские пользователи Google уже могут вводить поисковые запросы типа «самый дешевый рейс из Нью-Йорка в Лас-Вегас» и получать результат.
Иногда владельцы ресурсов, информация которых не должна попадать в Сеть, допускают технические ошибки, вследствие которых конфиденциальные сведения оказываются в результатах поиска (все эти данные также относятся к «глубокому вебу»). Подобный случай произошел 18 июля 2011 года, когда «Яндекс» проиндексировал часть SMS-сообщений, отправленных с сайта фирмы «Мегафон» абонентам сотового оператора. Как впоследствии пояснили специалисты «Яндекса», в разделе отправки SMS на странице «Мегафона» в момент индексации поисковой системой отсутствовал файл robots.txt, в котором содержатся команды поисковому роботу. В нем, в частности, должен быть обозначен запрет на индексацию конфиденциальных разделов сайта. Сейчас эта информация уже удалена из результатов поиска, но внимательные пользователи успели ее сохранить и выложить в файлообменные сети, где она доступна и по сей день.
Однако это еще не полное погружение в «глубокий веб».
Сталкеры «глубокого веба»
Открыть доступ к недрам Интернета обещают такие поисковые системы, как CompletePlanet и Scirus. Они устроены иначе, чем Google и «Яндекс», и позволяют находить информацию в таких базах данных, перед которыми традиционные поисковые системы пасуют. Например, CompletePlanet, как утверждают ее создатели, предоставляет доступ примерно к 70 000 сложноиндексируемых баз, а Scirus поможет отыскать информацию в различных научных архивах с данными.
Их работа стала возможной благодаря передовым поисковым роботам (часть поисковой системы, ответственная за сбор информации на сайтах). Они, в частности, способны генерировать вполне осмысленные запросы к базам данных и заполнять за пользователя формы благодаря поддержке специфичных языков.
Традиционные поисковые системы тоже стремятся добраться до информации, которая находится в глубоком Интернете, что неудивительно — по оценкам экспертов, там ее содержится в тысячу раз больше, чем в поверхностном. Компания Google, например, разработала особый формат для карт сайтов, благодаря чему ее поисковые роботы посещают даже те страницы, ссылки на которые с других ресурсов отсутствуют. Разумеется, сперва такую карту должен создать владелец сайта. Постепенно поисковики будут индексировать все больше информации, находящейся в глубоком Интернете, и граница между «поверхностным» и «глубоким вебом» размоется. Но некоторая ее часть все равно останется недоступной для поиска — например, предоставляемый только по подписке платный контент.