Почему? Google — это всеведущий оракул. Он знает обо всем, что вы когда-либо делали, хранит эту информацию и даже прячет ее в кэше на случай, если вы вдруг попытаетесь ее удалить (бережливый, знаете ли).
ФАКТЫ О GOOGLE
Google — мощная компания. Ей принадлежит порядка 88 % рынка контекстной рекламы. По данным самого Google, в его поисковой системе индексированы более 100 000 000 гигабайт сайтов (https://www.google.com/search/howsearchworks/crawling-indexing/).
Только представьте себе эти бесконечные триллионы индексированных страниц! Как одному маленькому социальному инженеру найти среди этого изобилия крупицы необходимой информации? Прежде чем я отвечу на этот вопрос, позвольте объяснить принцип работы Google (и всех остальных поисковых систем).
Раскроем тайны поисковиков!
Честно говоря, ни о каких тайнах в этой главе я рассказывать не буду. Заголовок ввел вас в заблуждение, чтобы вы бросились читать этот раздел. Вы уже наверняка имеете представление о том, как работают поисковики. Но если нет, то сейчас я вкратце это объясню.
Поисковики используют коды, которые называют поисковыми роботами, или «веб-пауками». Такие пауки «проползают» (и здесь я ничего не выдумываю!) по каждой размещенной в Сети странице и кэшируют (то есть сохраняют) все, к чему получают доступ. Некоторые файлы (например, robots.txt) стараются не позволить такому пауку проиндексировать определенные разделы сайта. Но обычно под индексацию и кэширование попадает большая часть информации.
Затем весь кэш сохраняется в базе данных, и когда вы вводите текст запроса в окошко на странице поисковика, то получаете результаты в духе тех, что изображены на скриншоте 2.13.
Хочу подчеркнуть, на какие детали на этом изображении необходимо обратить внимание. Во-первых, за 0,59 сек поисковик выдал 105 000 результатов. Как же ему удалось просмотреть 20 трлн страниц меньше чем за секунду? Вы же помните: информация о каждой из них была в свое время занесена в специальную базу данных, которая и позволяет достигать такой умопомрачительной скорости поиска.
Пролистать 105 000 ссылок вы вряд ли сможете физически. Поэтому позвольте рассказать вам об операторах.
За дело принимаются операторы
Google создал набор специальных слов (их и называют операторами). Операторы включают в поисковый запрос вместе с искомыми словами, чтобы ограничить диапазон поиска. Разница между поиском с операторами и без них похожа на разницу между лупой и микроскопом. Оба приспособления позволяют рассмотреть объект подробно, но, если вас интересуют мельчайшие детали, без микроскопа не обойтись. Операторы можно назвать микроскопом мира веб-поиска.
Вот пара сайтов, на которых перечислены полезные операторы для Google (и даже некоторые для Yahoo! и Bing):
• https://support.google.com/websearch/answer/2466433?hl=en&ref_topic=3081620
• http://www.googleguide.com/advanced_operators_reference.html
А вот список операторов, которых считаю особенно полезными лично я:
• intext: этот оператор ищет ваш запрос в текстах веб-страниц и документах. Например, если ввести в поисковую строку intext: Альпина, Google найдет для вас все тексты, в которых используется это слово. По запросу разведка intest: Альпина найдутся тексты по разведке, в которых есть слово «Альпина».
• site: позволяет ограничить диапазон поиска конкретным сайтом. Например, по запросу разведка site: alpinabook.ru вы найдете все о разведке на сайте издательства.
• inurl: с одной стороны, он похож на предыдущий, однако ограничивает поиск указанным URL. Следовательно, если набрать inurl: alpinabook.ru, в поиск будут включены все сайты, в ссылках которых встречается inurl: alpinabook.ru. Например, если бы существовал сайт с адресом http://all-book-publishers.ru/alpinabook.ru/, этот оператор нашел бы его, а site — нет.
• filetype: как и следует из его названия, этот оператор ограничивает поиск по необходимому вам типу файлов. Можно искать файлы pdf, doc, xls, ppt и многие другие. Например, по запросу разведка filetype: pdf найдутся PDF-файлы, имеющие отношение к разведке (а по запросу разведка filetype: pdf site: alpinabook.ru — все PDF-файлы о разведке на сайте издательства).
• cache: этот оператор ищет попавшие в кэш домены, файлы или другие артефакты, указанные вами. Закэшированные, а не актуальные, то есть если кто-то недавно изменил информацию на странице или убрал ее, высока вероятность найти по этому запросу то, что владелец страницы решил скрыть. Например, cache: alpinabook.ru покажет, как выглядела главная страница сайта издательства несколько дней назад.
• info: выдаст вам информацию по указанному домену и связанные с ним страницы. Например, по info: alpinabooks.ru можно найти информацию о сайте издательства, о самом издательстве, времени его работы и т. д.
Как и большинство вещей, связанных с программным обеспечением, поиск в Google работает по определенным правилам:
• Поисковый запрос должен следовать за оператором через двоеточие (:), без пробелов. Например, если ввести запрос site: alpinabook.ru, поиск будет ограничен ресурсом alpinabook.ru. Но если ввести site: alpinabook.ru, поиск ограничится пробелом после знака двоеточия. Запрос, как вы понимаете, нужных ответов не даст.
• Если перед оператором поставить дефис (-), указанные результаты будут исключены из поиска. Например, если вас интересуют отсылки к cайту издательства «Альпина», не относящиеся к самому сайту издательства, вы можете ограничить пространство поиска следующим образом: inurl: alpinabook.ru — site: alpinabook.ru. Аналогично с помощью дефисов можно исключить из поиска заведомо нерелевантные результаты: разведка — нефти — геологическая исключит из поиска документы, касающиеся геологоразведки.
• Если ваш поисковый запрос состоит более чем из одного слова и они нужны вам именно в таком сочетании, используйте кавычки. Например, чтобы найти упоминание книги в текстах, можно поставить в кавычки ее название: intext: «Думай как шпион».