Блог Search-Science публикует статью РїРѕРґ названием «РњРѕР№ индекс больС?Рµ твоего», которая немного напоминает попытку оправдания Google РІ том, что база проиндексированных документов Сѓ Yahoo больС?Рµ РІ РґРІР° раза. Опечатка РІ первом абзаце – название РїРѕРёСЃРєРѕРІРёРєР° Yahoo СЃ маленькой Р±СѓРєРІС‹ – почти РїРѕ Фрейду :).

Автор РіРѕРІРѕСЂРёС‚ Рѕ том, что больС?РѕР№ индекс – это плохо. БольС?РѕР№ индекс быстро устаревает Рё требует серьезных ресурсов, чтобы его обновлять. Ресурсы РїРѕРёСЃРєРѕРІРѕРіРѕ робота РјРѕРіСѓС‚ быть растрачены РЅР° обработку невостребованной информации, документов, которые РЅРµ изменялись, или даже РЅР° поисковый спам. Усложняется ранжирование.

Автор указывает, что такой больС?РѕР№ индекс может быть получен Р·Р° счет документов-дублей или Р·Р° счет информации, которую Google посчитал Р±С‹ РЅРµ важной. РҐРѕСЂРѕС?Рѕ, если Yahoo проиндексировал глубокий веб (Deep Web), РЅРѕ Google РЅРµ может это проверить, так как РІ ответ РЅР° простой поисковый запрос РјС‹ можем получить РѕРіСЂРѕРјРЅРѕРµ количество релевантной информации.

Тем РЅРµ менее, автор признает важность тех усилий, которые предпринимает Yahoo РІ деле персонализации для облегчения доступа Рє информации. РќРѕ тут же повторяет, что для обработки больС?РѕРіРѕ количества информации для удовлетворения возрастающих запросов таких технологий, так же как Рё для работы СЃ больС?РёРј индексом, нужны серьезные технические ресурсы.

Далее автор привлекает РЅР°С?Рµ внимание Рє тому факту, что РІ серпе Yahoo РЅРµ указывается дата, РєРѕРіРґР° СЂРѕР±РѕС‚ обработал документ, тогда как Google Рё MSN такую дату отображают, пытаясь показать, что РІ базах СЃ меньС?РёРј количеством документов информация более свежая. Чем больС?Рµ становится индекс, тем больС?Рµ появляется проблем. Может быть РјС‹ РІ ближайС?ее время будем замечать, что паук Yahoo станет приходить РЅР° сайт реже?

Р’ итоге автор РїСЂРёС?ел Рє выводу, что самое главное – это релевантность результатов РїРѕРёСЃРєР°. Объявление Рѕ том, что РЅР°С? индекс больС?Рµ чем Сѓ РґСЂСѓРіРёС…, предназначено для посетителей, так как чем больС?Рµ документов, тем лучС?Рµ Р±СѓРґСѓС‚ результаты РїРѕРёСЃРєР°.

Прекрасный вывод, РЅРѕ его можно было получить Рё без высасывания РёР· пальца проблем, которые СЏРєРѕР±С‹ РјРѕРіСѓС‚ появится РІ РїРѕРёСЃРєРѕРІРѕР№ РјР°С?РёРЅРµ СЃ больС?РёРј индексом. Релевантность результатов РїРѕРёСЃРєР° очень слабо связана СЃ количеством проиндексированных документов Рё является предметом совсем РґСЂСѓРіРѕРіРѕ разговора.