«Будьте проще, и система вас поймет»

Статистика утверждает, что российские руководители пользуются Интернетом редко. Чаще за них это делают секретари и референты. И неудивительно: поиск информации в Сети отнимает слишком много времени. В результате же вы далеко не всегда получаете то, что искали.

Однако дело не в том, что Интернет плох. Просто большинство из нас не умеют использовать возможности поисковых систем. Практикум ведет руководитель отдела поисковых систем известного поискового сайта Яндекс Илья Сегалович (iseg@yandex-team.ru).

ПАУЧЬЯ РАБОТА

— Вероятно, чтобы более эффективно работать с поисковыми системами, пользователю желательно понимать логику, лежащую в основе их построения и функционирования. Почему, например, получается так, что на один и тот же запрос разные поисковые системы выдают разные выборки?

— Все более или менее популярные сайты представлены во всех поисковых системах.

Вообще любая такая система основана на работе робота-«паука», который исследует весь Интернет с целью сбора информации. И делает это не периодически по запросу пользователя, а постоянно, днем и ночью, в непрерывном режиме. Он собирает предварительную информацию, чтобы потом моментально реагировать на запросы.

Разница в выборках возникает потому, что у каждой поисковой системы свой «паук».

— Иными словами, хозяевам нового сайта не нужно самим регистрироваться в той или иной поисковой системе?

— Совершенно верно. За исключением тех случаев, когда речь идет о домашней страничке Васи Пупкина, мечтающего прославиться на весь мир. И при этом не имеющего ни единого друга в Сети, который поставит на него ссылку. Если же на сайте есть хотя бы одна ссылка, робот достаточно быстро сам его обнаружит.

— А зачем каждая поисковая система заводит собственного «паука»?

— При создании такой программы приходится решать сразу целый ряд задач: как сделать ее наиболее эффективной, что брать, что не брать… Ведь есть тысячи сайтов, выдающих массу крайне неинформативных страниц. Кроме того, в Интернете существуют моральные и этические проблемы, которые тоже приходится брать в расчет. И каждая поисковая система делает это на свой лад — поэтому «пауки» и отличаются друг от друга.

ТЕХНОЛОГИЯ ОБМАНА

— В чем заключаются упомянутые Вами моральные и этические проблемы Интернета?

— Простейший пример: владелец сайта хочет, чтобы все его знали. Но это стремление не сбалансировано — оно не учитывает желаний других людей, прежде всего тех, кто ищет в Сети информацию. Люди с амбициями стремятся любыми средствами — в том числе и «грязными» — попасть в выдачу
поисковой системы.

Они так настраивают свой сервер, что робот получает одну страничку, а приходящий на сайт по ссылке поисковой системы человек — уже совсем другую. Или создают специальные странички, которые с точки зрения робота представляют собой прекрасный информативный текст, но на самом деле содержат команды, перенаправляющие Ваш браузер на сайт совсем иного содержания.

Пару лет назад был судебный процесс против одного португальца. Он проанализировал запросы поисковой системы AltaVista, скопировал и положил к себе на сайт самые популярные странички, а с них сделал перенаправление на свою «порнуху».

— Может ли пользователь определить такие «подложные» странички при анализе выдачи поисковой системы?

— Если в выдаче «грязь» (например, беспорядочный набор слов), с вероятностью 10—20 процентов Вы столкнулись с одним из таких «умельцев». Особенно если пользователь мыслит стандартно: задает в строке поиска самые «ходовые» слова. Например, «работа» или «Москва». Поисковые системы стараются с этим бороться, но тем не менее в выборке почти наверняка будет присутствовать «спам» — странички, созданные специально для обмана поисковой системы.

— А как именно поисковые системы борются с этими «вредителями»?

— Отчасти с помощью анализа текста. Но не всегда это срабатывает. Можно, например, взять текст «Войны и мира», поменять Болконского на Путина. Поисковая система это «съест» как текст про Путина, потому что с точки зрения русского языка в нем все отлично. И будет приводить на сайт толпы пользователей, потому что сейчас запросов о Путине очень много.

— А почему случается так, что при использовании функции «Показать найденные слова» система выводит текст, где вместо искомых слов выделены совершенно другие, к теме отношения не имеющие? Это тоже результат чьих-то недобросовестных действий?

— Видимо, содержание сайта поменялось, а поисковая система выдала выборку, основанную на уже устаревшей информации. Ведь как действует робот: он запомнил, что слово «работа» — третье слово в пятом предложении, а «Москва» — первое слово в седьмом…

Но в этом случае внизу страницы должно быть указание на то, что сайт изменился с момента последнего захода «паука».

ВГЛУБЬ, ВДОЛЬ И ПОПЕРЕК

— Каким образом поисковая система определяет релевантность того или иного сайта запросу пользователя?

— Здесь играет роль частота употребления искомого слова на отдельных страницах сайта и то, где именно оно стоит (например, для нашего «паука» предпочтительнее, если оно в заголовке). Кроме того, вычисляется популярность каждой странички. Потом эта информация сводится воедино, и выбирается страница-«представитель», которая наиболее полно отражает содержание сайта с точки зрения интересов пользователя.

Еще один важный момент: расположение используемых в запросе слов относительно друг друга.

Предположим, пользователь вводит запрос: «управление кадрами на Украине утром рано». Он может восприниматься системой и как набор слов, и в качестве фразы. И если в Интернете будет найден сайт, где эти слова составляют предложение, именно он и будет выведен первым в результатах поиска.

— Нередко в выдаче системы содержится сразу несколько внешне одинаковых страниц. Почему так получается?

— Во-первых, на многих сайтах лежат страницы, скопированные с других ресурсов. Но это само по себе не страшно. Гораздо хуже то, что почти все страницы содержат активные элементы — программу, которая немного меняет их содержание. Например, впечатывает туда дату или счетчик посещений. А иногда на очередном сайте к исходному тексту делаются какие-то незначительные приписки: «Оцените этот текст. Я взял его на сайте у Васи Иванова. С приветом, Коля Петров».

Поисковые системы стараются с этим бороться. Но если система будет игнорировать частности, то она, например, не сможет распознавать страницы интернет-магазинов, так как они обычно отличаются друг от друга не более чем на 10 процентов: у них общая «шапка» и меню, а варьируется лишь товар.

— А какова логика построения рубрик, вывешенных на главной странице сайта?

— Во-первых, каталог разбит по тематическим рубрикам. Использование рубрикатора помогает в том случае, если выборка явно распадается на отдельные темы. К примеру, Вы делаете запрос на слово «мышь» и получаете в выдаче сайты по зоологии, по домашнему хозяйству (как бороться с грызунами) и по компьютерной тематике. Тогда Вы щелкаете по нужной Вам рубрике и отсекаете лишнюю информацию.

Во-вторых, у нас на «Яндексе» на каждый сайт «навешиваются» дополнительные характеристики: от кого исходит информация, кому она адресована, к какому региону относится.

Например, если указано, что источник информации анонимный, владелец сайта не несет никакой ответственности за его содержание. Если же сайт зарегистрирован на имя некой компании, то мы можем предполагать, что владелец подходит к формированию контента более ответственно.

Используя одновременно основные категории каталога и дополнительные рубрики, представленные у нас в левой колонке, пользователь оптимизирует поиск. Например, он ищет интернет-провайдеров в тематическом рубрикаторе. А потом «уходит» в географию: скажем, отбирает провайдеров, работающих в Смоленске. В этом случае система представит только те сайты из прежней выборки, которые относятся к заданному региону.

«ВОЛШЕБНЫЕ» ЗНАЧКИ

— Что такое расширенный поиск и зачем он нужен?

— Эта функция пригодится пользователю, если он ищет что-то специфическое. Например, фотографию. Однако для поиска картинок можно использовать и стандартную строку поиска. При условии, что Вы знаете язык запросов — умеете пользоваться «волшебными» значками.

— Я, признаюсь, про «волшебные» значки ничего не знаю. И, полагаю, многие наши читатели осведомлены не лучше. Может быть, просветите?

— Во-первых, есть универсальные значки, которые понимают все поисковые системы. (Вообще-то они перечислены в рубрике «Помощь», но туда заходят только около полупроцента пользователей.) Во-вторых, есть значки более или менее специфические.

Самый распространенный универсальный значок — кавычки. Если несколько слов взято в кавычки, поисковая система будет искать только те документы, в которых они идут подряд.

Использование кавычек позволяет значительно сократить выборку, поскольку автоматически отсеиваются «похожие» документы, которые отношения к теме не имеют.

Предположим, вы хотите узнать, что писали или говорили в Германии о «Черном квадрате» Малевича.

Задано: черный квадрат Германия. Найдено 57 страниц, причем первым номером в выборке идет страница, посвященная способам маркировки горнолыжных трасс в Германии.

Задано: «черный квадрат» Германия. Найдена всего одна страница, и она посвящена страховке и пребыванию картины Малевича в Германии.

Второй значок — плюс. Многие люди используют в запросе сразу несколько слов. И обнаруживается интересная вещь: система ищет, но не может обнаружить ни единого документа, в котором есть сразу все заданные пользователем слова.

А некоторые поисковые системы вообще отказываются делать какую-либо выборку. Другие же ищут документы, в которых встречаются самые важные из заданных слов. «Важность» слов машина определяет сама и, как правило, считает таковыми самые редкие (согласно статистике частоты употребления). Но у пользователя могут быть совсем другие приоритеты.

Чтобы избежать такого обидного оборота дела, перед самым ценным словом надо поставить «+». И наоборот, если слово вообще не нужно, перед ним нужно поставить «—».

Если же пользователь склонен к математическому мышлению, он может взять на вооружение и другие значки, которые различаются от системы к системе. Например, на англоязычных поисковых серверах в ходу значок AND (ставится между двумя словами) — он означает, что пользователь ищет документы, в которых встречаются оба слова. Российский аналог выглядит так — «&». Это, конечно, далеко не все «волшебные» значки.

Запрос с «волшебным» значком (малое|среднее) предприятие означает, что пользователь ищет информацию, касающуюся либо малых, либо средних предприятий. Во многих англоязычных поисковиках вместо значка | (или) надо писать слово OR.

— Вероятно, использование «волшебных» значков заметно повышает эффективность поиска?

— Я бы так сказал: знать эти значки необходимо, но пользоваться ими надо далеко не всегда. Только в тех случаях, когда найти нужный сайт по-другому не получается.

СИСТЕМА ЛЮБИТ ПРОСТОТУ

— Как же все-таки оптимально составить свой запрос поисковой системе?

— Моя рекомендация такая: будьте проще, и поисковая система Вас поймет.

Проще и специфичнее. Если Вы ищете определенную модель модема, не пишите в строке запроса «модем» — выборка будет необъятной. Сразу задавайте название самой модели.

Все поступающие в поисковую систему запросы можно типологически разделить на три вида.

Первый вид — информационный. То есть человек ищет конкретную информацию по данному вопросу или даже своего рода руководство к действию. Например, хочет узнать, может ли он для своего модема использовать имеющееся у него зарядное устройство от электробритвы. Или узнать, какие еще песни есть у любимой певицы. И таких запросов больше всего — примерно 40 процентов.

Второй вид — навигационные запросы (около 30 процентов). Человек знает, что существует сайт, принадлежащий некой компании, но не знает адреса. Или ищет сайт, где находится самый полный список ссылок на ресурсы по финансовой тематике. В данном случае нужна не столько конкретная информация, сколько полезная ссылка, которую можно будет, например, положить в папку «избранное».

Третий вид — транзакционный (тоже 30 процентов) — когда человеку нужно что-то купить, продать, воспользоваться какими-то услугами. Этот тип запросов характеризуется тем, что пользователь очень хорошо знает, чего именно хочет. Его не интересует, как устроены цветы. Он просто ищет того, кто может доставить букет его любимой девушке.

— А можно ли запросы из первой, информационной категории формулировать, что называется, в лоб? Например, спросить поисковую систему, как оптимизировать документооборот в компании? Или, как часто надо проводить аттестацию персонала?

— Можно. Более того, мы приветствуем такие запросы. И специально «учим» нашу систему реагировать на них.

Очень часто ответ на информационный запрос содержится уже в контексте документов, попавших в выборку.

— Но возможна ситуация, когда человек, скажем, хочет купить некое полезное устройство, но не знает, как именно оно называется. И использует в запросе слова, которые в искомом документе вообще не встречаются. Или встречаются еще в тысяче других документов, которые его совершенно не интересуют. Как быть в этом случае?

— Вот пример из жизни. Ко мне обратился товарищ; он владелец фирмы, которая занимается перевозками, и ему нужно было найти программу географического мониторинга движения транспорта. И я, совсем не зная этой темы, сделал запрос почти наугад. Условно говоря, я искал программу для транспортников, а она на самом деле называлась программой визуализации перевозок. В результате попал на какой-то форум по автомобильной теме, где узнал, как именно эта программа называется. Дальнейший поиск был делом техники.

То есть если Вы не знаете, как лучше составить запрос, надо сначала войти в «тусовку» и понять, какими словами там пользуются.

«ДОРОГАЯ ПОИСКОВАЯ СИСТЕМА!»

— Как часто совершенствуется интерфейс поисковой системы?

— Мы стараемся делать это не чаще чем раз в год. А изнутри она совершенствуется постоянно. Главная проблема: отранжировать выдачу, показать пользователю самое важное, ведь информации становится все больше.

— Может, нужен какой-то принципиально новый подход?

— Сейчас появилось несколько новых гениальных идей, и одну из них мы уже взяли на вооружение. Речь идет о том, чтобы использовать ссылки между страницами.

То есть каждая страница характеризуется не только с содержательной стороны. Принимается во внимание также то, сколько раз на нее ссылались на других сайтах. В научном мире это называется индексом цитирования.

Если на страницу сослались много раз, причем с авторитетных сайтов, то и ее авторитетность растет.

— А есть ли надежда, что в будущем пользователь сможет делать запросы, не утруждая себя необходимостью формулировать, что именно он хочет получить? Он, скажем, пишет: «Дорогая поисковая система! Пришли мне, пожалуйста, все самое интересное по теме «финансовое управление»! А система адекватно на такой запрос реагирует.

— Это уже и сейчас возможно. Есть, например, ребята из питерской компании «Интернет-Хэлп». Пишете им «Уважаемая поисковая система…», а они Вам отвечают.

А непосредственно на «Яндексе» есть форум, где можно спросить что угодно и получить ответ. Совершенно бесплатно.

Беседу вела

Анастасия РОМАШКЕВИЧ

ДВА ВАРИАНТА ПОИСКА ТОВАРОВ

Многие поисковые системы позволяют искать товар в Сети двумя способами.

Во-первых, можно просто ввести название нужного товара в стандартную строку поиска. Но надо иметь в виду, что система будет искать не товар, а слово. И в результате в выборку попадут в том числе и страницы, не имеющие к интернет-торговле никакого отношения.

Во-вторых, можно локализовать поиск, запросив систему искать только в секции «Товары» (или «Покупки»), которая представляет собой своего рода рекламный каталог. В этом случае отделять «зерна от плевел» не придется — в выдачу гарантированно попадут одни только товары. Однако за участие в этой секции поисковая система взимает с магазинов деньги. И далеко не все интернет-торговцы идут на такое сотрудничество. Поэтому выбор товаров будет меньше, чем при поиске на общих основаниях.

НЕ НЕРВНИЧАЙТЕ

Среднестатистический пользователь «Яндекса» тратит на поиск около 14 минут в день. Как правило, за это время он делает 3—4 запроса. То есть в среднем — по 4 минуты на запрос.

Между тем, считают в «Яндексе», оптимальное время поиска составляет всего 3 минуты. Пользователь, уложившийся в это время, испытывает от общения с системой исключительно положительные эмоции. Если же работать с выборкой приходится дольше, он начинает нервничать, испытывать душевный дискомфорт и прочие отрицательные эмоции.