Электронная коммерция

       

Поисковые системы


Задача поисковых систем — опознать другие серверы Internet при помощи поиска по ключевым словам базы данных, которая состоит из проиндексированного содержания Web-серверов In­ternet. Ярким представителем поисковых систем являются между­народная AItaVista и российский Rambler.

Поисковые системы состоят из трех основных частей:

·

Спайдеры (Spider, Crawler, Robot) — программа, которая по­сещает Web-серверы, считывает и индексирует полностью или частично их содержимое и далее следует по ссылкам, найденным на сервере. Spider возвращается через определен­ные периоды времени, например каждый месяц, и повторяет индексацию страниц.

·        Все, что находит и считывает Spider, попадает в индексы поис­ковой системы. Индексы системы представляют собой гигантское хранилище информации, где хранятся копии текстовой составляющей всех страниц, которые посетил и проиндексировал Spider

·        Третья часть — это программа, которая в соответствии с за­просом пользователя перебирает индексы поисковой системы в поисках информации и выдает ему в порядке убывания ре­левантности найденные документы. Релевантность определяет, насколько полно тот или иной документ отвечает критериям, указанным в запросе пользователя. Разумеется, далеко не всегда документ, признанный поисковой системой наиболее релевантным, будет таким по мнению самого пользователя.

В каждой поисковой системе работает собственный спайдер; каждая система индексирует страницы своим особым способом, и приоритеты при поиске по индексам тоже отличны. Поэтому запрос по определенным ключевым словам или выражениям в каждой из поисковых систем обычно порождает разные ре­зультаты.

Наиболее широко известными международными поисковыми системами являются AItaVista (http://www.altavista.digital.com/). Excite (http://www.excite.com/). Hot Bot (http://www.hotbot.com/), Infoseek (http://www.infoseek.com/),

Lycos (http://www.Iycos.com/), WebCrawler (http://www.webcrawler.com/). Остановимся на неко­торых из них.


AItaVista (http://www.altavista.agital.com/) была открыта в декабре 1995 года, принадлежит компании DEC. В июне 1996 года стала партнером Yahoo, и с тех пор AItaVista является избранной поисковой системой этого знаменитого каталога. AItaVista по праву считается самой большой и авторитетной поисковой сис­темой. Кроме того, она представляет особый интерес, т. к. позволяет вести поиск не только на английском, но и на русском и многих других языках.

Сервер Excite (http://www.excite.com/) был запушен в 1995 г., и с тех пор система быстро развивается. В 1996 году компания Excite купила двух своих конкурентов: Magellan и WebCrawler. Несмотря на смену владельца, эти два поисковых сервера продолжают работать как независимые системы. Excite предусматривает поиск по трем типам индексов: Excite Search — индексы собираются поисковым спайдером;  Channels By Excite — индексы просмотрены сотрудниками, некоторые имеют рецензии (своеобразный каталог внутри поисковой системы); Excite NewsTrackers - поиск ведется исключительно по серверам новостей.

Сервер Infoseek (http://www.infoseek.com/) ведет свою историю ( начала 1995 года и имеет весьма солидную "репутацию. Помимо самой поисковой системы включает каталог, формирование ко­торого осуществляется специальной программой. Некоторые из сайтов, попавших в каталог, имеют специальную отметку, озна­чающую "сайт осмотрен персоналом и рекомендован пользова­телям".

WebCrawIer

(http://www.webcrawler.com/)
существует с апреля 1995 года. Вскоре владельцем системы стала небезызвестная AOL, и всем пользователям этого сервис-провайдера была реко­мендована именно эта поисковая система. В ноябре 1996 года WebCrawIer был куплен своим конкурентом Excite, хотя и про­должает работать как независимая поисковая система. Имеет свою директорию рецензированных страниц.

Наиболее широко известной и популярной российской поиско­вой системой является Rambler — (http://www.rambler.ru). Принадлежит компании Stack Ltd. Поисковая система Ramb­ler поддерживает рейтинг русских страниц Тор 100 (http;// counter.rambler.ru/topl00) Списки страниц разбиты на группы, и многие пользователи используют данный рейтинг как каталог.



Наряду с сервером Rambler большой популярностью пользуются поисковые системы Yandex

(http://yandex.ru)
и "Апорт!" (http:// www.aport.ru/).

Yandex является оригинальной разработкой фирмы CompTek, выполняет поиск по русской части Internet с учетом морфологии русского языка и имеет очень мощный язык запросов. Результа­ты поиска упорядочиваются по степени значимости, при этом учитывается число встретившихся в документе терминов, их по­ложение, число слов между ними, и, кроме того, они содержат удобную аннотацию. Поисковая система "Апорт!" разработана компанией "Агама" при поддержке Intel. Система понимает все кириллические кодировки и выполняет поиск с учетом морфологического анализа. Имеет гибкий язык запросов, поддерживает перевод запроса с русского на английский язык и наоборот. Результаты поиска упорядочиваются по частоте употребления искомых терминов. Вместе со ссылкой отображается фрагмент текста, где встречается термин, а также дата и время последней модификации файла.


Содержание раздела