Блог Search-Science публикует статью под названием «Мой индекс больше твоего», которая немного напоминает попытку оправдания Google в том, что база проиндексированных документов у Yahoo больше в два раза. Опечатка в первом абзаце – название поисковика Yahoo с маленькой буквы – почти по Фрейду :).

Автор говорит о том, что большой индекс – это плохо. Большой индекс быстро устаревает и требует серьезных ресурсов, чтобы его обновлять. Ресурсы поискового робота могут быть растрачены на обработку невостребованной информации, документов, которые не изменялись, или даже на поисковый спам. Усложняется ранжирование.

Автор указывает, что такой большой индекс может быть получен за счет документов-дублей или за счет информации, которую Google посчитал бы не важной. Хорошо, если Yahoo проиндексировал глубокий веб (Deep Web), но Google не может это проверить, так как в ответ на простой поисковый запрос мы можем получить огромное количество релевантной информации.

Тем не менее, автор признает важность тех усилий, которые предпринимает Yahoo в деле персонализации для облегчения доступа к информации. Но тут же повторяет, что для обработки большого количества информации для удовлетворения возрастающих запросов таких технологий, так же как и для работы с большим индексом, нужны серьезные технические ресурсы.

Далее автор привлекает наше внимание к тому факту, что в серпе Yahoo не указывается дата, когда робот обработал документ, тогда как Google и MSN такую дату отображают, пытаясь показать, что в базах с меньшим количеством документов информация более свежая. Чем больше становится индекс, тем больше появляется проблем. Может быть мы в ближайшее время будем замечать, что паук Yahoo станет приходить на сайт реже?

В итоге автор пришел к выводу, что самое главное – это релевантность результатов поиска. Объявление о том, что наш индекс больше чем у других, предназначено для посетителей, так как чем больше документов, тем лучше будут результаты поиска.

Прекрасный вывод, но его можно было получить и без высасывания из пальца проблем, которые якобы могут появится в поисковой машине с большим индексом. Релевантность результатов поиска очень слабо связана с количеством проиндексированных документов и является предметом совсем другого разговора.