Алексей Кравцов (Miracle) поделился на форуме своими наблюдениями о количестве проиндексированных документов в Яндексе. Эта цифра публикуется на главной странице поисковика. Алексей заметил, что база постоянно растет, а иногда после апдейтов цифра становится мень??е и предположил, что это может быть плановой чисткой документов в индексе. Глядя на значения за последние 7 недель, можно подумать, что в начале каждого месяца в индексе происходит уборка. Для боль??ей уверенности в выводах нужно иметь данные еще за несколько месяцев.

Высказались предположения о пределе скорости индексирования роботом, о темпах прироста Рунета и о новых индексирующих серверах, недавно запущенных Яндексом, о чем можно судить по выраженному линейному участку на графике. Кстати, подобный график можно построить, взяв для оси Х не календарные даты, а апдейты, kittenk предположил, что чистка может происходить через определенное количество апдейтов.

Да не было там чистки очень много старого мусора осталось. Можно из любопытства посмотреть чем интересуются поисковики, я даже простенький скриптик для себя по этой теме набросал …
Ну, если есть чего рассказать — рассказывай! 🙂
Очень интересно. Давайте поподробней 😉
Да элементарная статистика, просто отслеживаем только боты (скрипт на PHP ??пилит в текстовый файл):
<?php$agent = $_SERVER["HTTP_USER_AGENT"];
if (eregi("Yandex", $agent)) $agent_name = '?ndex';
if (eregi("Rambler", $agent)) $agent_name = 'Rambler';
if (eregi("Google", $agent)) $agent_name = 'Google';
if (eregi("Aport", $agent)) $agent_name = 'Aport';
if (eregi("Yahoo",$agent)) $agent_name = 'Yahoo!';
if (eregi("msn",$agent)) $agent_name = 'MSN';
if (!empty($agent_name)) {
$fp=fopen("bots.txt","a+");
fputs($fp, $_SERVER["REMOTE_ADDR"]." ".$agent_name." ".$_SERVER["REQUEST_URI"]." ".date("d-m-y H:i")."\n");
fclose($fp);
}
?>
Я так понял, этим скриптиком ты записывае??ь обращения ротобов к страницам. Тема про чистку базы в Яндексе. Попробую провести параллель — ты в своей статистике види??ь, что роботы обращаются к «мусорным» страницам, которые оказываются в индексе и даже после чистки не исчезают из базы. Так? 🙂
Да, но вообще есть более крутой оборот вещей. Как ты знае??ь многие поисковики Яндекс, Yahoo (это точно) индексируют страницы с параметрами, такие как:
page.php?q=vasya&p=2, каким то образом имя файла пропадает и получается вот такая страница:?q=vasya&p=2, которой естественно есть и нет одновременно. Есть index.php, но какое отно??ение он имеет к этим параметрам? Правильно – никакого. Вообще убивает и тот факт, что неоднократно увидев 404 о??ибку, паук не спе??ит удалять страницу. Да что там, паук не всегда замечает запреты robots.txtУведомление: БЛОГика