Поисковые системы
Задача поисковых систем — опознать другие серверы Internet при помощи поиска по ключевым словам базы данных, которая состоит из проиндексированного содержания Web-серверов Internet. Ярким представителем поисковых систем являются международная AItaVista и российский Rambler.
Поисковые системы состоят из трех основных частей:
·
Спайдеры (Spider, Crawler, Robot) — программа, которая посещает Web-серверы, считывает и индексирует полностью или частично их содержимое и далее следует по ссылкам, найденным на сервере. Spider возвращается через определенные периоды времени, например каждый месяц, и повторяет индексацию страниц.
· Все, что находит и считывает Spider, попадает в индексы поисковой системы. Индексы системы представляют собой гигантское хранилище информации, где хранятся копии текстовой составляющей всех страниц, которые посетил и проиндексировал Spider
· Третья часть — это программа, которая в соответствии с запросом пользователя перебирает индексы поисковой системы в поисках информации и выдает ему в порядке убывания релевантности найденные документы. Релевантность определяет, насколько полно тот или иной документ отвечает критериям, указанным в запросе пользователя. Разумеется, далеко не всегда документ, признанный поисковой системой наиболее релевантным, будет таким по мнению самого пользователя.
В каждой поисковой системе работает собственный спайдер; каждая система индексирует страницы своим особым способом, и приоритеты при поиске по индексам тоже отличны. Поэтому запрос по определенным ключевым словам или выражениям в каждой из поисковых систем обычно порождает разные результаты.
Наиболее широко известными международными поисковыми системами являются AItaVista (http://www.altavista.digital.com/). Excite (http://www.excite.com/). Hot Bot (http://www.hotbot.com/), Infoseek (http://www.infoseek.com/),
Lycos (http://www.Iycos.com/), WebCrawler (http://www.webcrawler.com/). Остановимся на некоторых из них.
AItaVista (http://www.altavista.agital.com/) была открыта в декабре 1995 года, принадлежит компании DEC. В июне 1996 года стала партнером Yahoo, и с тех пор AItaVista является избранной поисковой системой этого знаменитого каталога. AItaVista по праву считается самой большой и авторитетной поисковой системой. Кроме того, она представляет особый интерес, т. к. позволяет вести поиск не только на английском, но и на русском и многих других языках.
Сервер Excite (http://www.excite.com/) был запушен в 1995 г., и с тех пор система быстро развивается. В 1996 году компания Excite купила двух своих конкурентов: Magellan и WebCrawler. Несмотря на смену владельца, эти два поисковых сервера продолжают работать как независимые системы. Excite предусматривает поиск по трем типам индексов: Excite Search — индексы собираются поисковым спайдером; Channels By Excite — индексы просмотрены сотрудниками, некоторые имеют рецензии (своеобразный каталог внутри поисковой системы); Excite NewsTrackers - поиск ведется исключительно по серверам новостей.
Сервер Infoseek (http://www.infoseek.com/) ведет свою историю ( начала 1995 года и имеет весьма солидную "репутацию. Помимо самой поисковой системы включает каталог, формирование которого осуществляется специальной программой. Некоторые из сайтов, попавших в каталог, имеют специальную отметку, означающую "сайт осмотрен персоналом и рекомендован пользователям".
WebCrawIer
(http://www.webcrawler.com/) существует с апреля 1995 года. Вскоре владельцем системы стала небезызвестная AOL, и всем пользователям этого сервис-провайдера была рекомендована именно эта поисковая система. В ноябре 1996 года WebCrawIer был куплен своим конкурентом Excite, хотя и продолжает работать как независимая поисковая система. Имеет свою директорию рецензированных страниц.
Наиболее широко известной и популярной российской поисковой системой является Rambler — (http://www.rambler.ru). Принадлежит компании Stack Ltd. Поисковая система Rambler поддерживает рейтинг русских страниц Тор 100 (http;// counter.rambler.ru/topl00) Списки страниц разбиты на группы, и многие пользователи используют данный рейтинг как каталог.
Наряду с сервером Rambler большой популярностью пользуются поисковые системы Yandex
(http://yandex.ru) и "Апорт!" (http:// www.aport.ru/).
Yandex является оригинальной разработкой фирмы CompTek, выполняет поиск по русской части Internet с учетом морфологии русского языка и имеет очень мощный язык запросов. Результаты поиска упорядочиваются по степени значимости, при этом учитывается число встретившихся в документе терминов, их положение, число слов между ними, и, кроме того, они содержат удобную аннотацию. Поисковая система "Апорт!" разработана компанией "Агама" при поддержке Intel. Система понимает все кириллические кодировки и выполняет поиск с учетом морфологического анализа. Имеет гибкий язык запросов, поддерживает перевод запроса с русского на английский язык и наоборот. Результаты поиска упорядочиваются по частоте употребления искомых терминов. Вместе со ссылкой отображается фрагмент текста, где встречается термин, а также дата и время последней модификации файла.