Блог Search-Science публикует статью под названием «Мой индекс боль?е твоего», которая немного напоминает попытку оправдания Google в том, что база проиндексированных документов у Yahoo боль?е в два раза. Опечатка в первом абзаце – название поисковика Yahoo с маленькой буквы – почти по Фрейду :).

Автор говорит о том, что боль?ой индекс – это плохо. Боль?ой индекс быстро устаревает и требует серьезных ресурсов, чтобы его обновлять. Ресурсы поискового робота могут быть растрачены на обработку невостребованной информации, документов, которые не изменялись, или даже на поисковый спам. Усложняется ранжирование.

Автор указывает, что такой боль?ой индекс может быть получен за счет документов-дублей или за счет информации, которую Google посчитал бы не важной. Хоро?о, если Yahoo проиндексировал глубокий веб (Deep Web), но Google не может это проверить, так как в ответ на простой поисковый запрос мы можем получить огромное количество релевантной информации.

Тем не менее, автор признает важность тех усилий, которые предпринимает Yahoo в деле персонализации для облегчения доступа к информации. Но тут же повторяет, что для обработки боль?ого количества информации для удовлетворения возрастающих запросов таких технологий, так же как и для работы с боль?им индексом, нужны серьезные технические ресурсы.

Далее автор привлекает на?е внимание к тому факту, что в серпе Yahoo не указывается дата, когда робот обработал документ, тогда как Google и MSN такую дату отображают, пытаясь показать, что в базах с мень?им количеством документов информация более свежая. Чем боль?е становится индекс, тем боль?е появляется проблем. Может быть мы в ближай?ее время будем замечать, что паук Yahoo станет приходить на сайт реже?

В итоге автор при?ел к выводу, что самое главное – это релевантность результатов поиска. Объявление о том, что на? индекс боль?е чем у других, предназначено для посетителей, так как чем боль?е документов, тем луч?е будут результаты поиска.

Прекрасный вывод, но его можно было получить и без высасывания из пальца проблем, которые якобы могут появится в поисковой ма?ине с боль?им индексом. Релевантность результатов поиска очень слабо связана с количеством проиндексированных документов и является предметом совсем другого разговора.