Ежемесячная уборка в Яндексе

Алексей Кравцов (Miracle) поделился на форуме своими наблюдениями о количестве проиндексированных документов в Яндексе. Эта цифра публикуется на главной странице поисковика. Алексей заметил, что база постоянно растет, а иногда после апдейтов цифра становится мень??е и предположил, что это может быть плановой чисткой документов в индексе. Глядя на значения за последние 7 недель, можно подумать, что в начале каждого месяца в индексе происходит уборка. Для боль??ей уверенности в выводах нужно иметь данные еще за несколько месяцев.

Количество проиндексированных документов в базе Яндекса

Высказались предположения о пределе скорости индексирования роботом, о темпах прироста Рунета и о новых индексирующих серверах, недавно запущенных Яндексом, о чем можно судить по выраженному линейному участку на графике. Кстати, подобный график можно построить, взяв для оси Х не календарные даты, а апдейты, kittenk предположил, что чистка может происходить через определенное количество апдейтов.

Ежемесячная уборка в Яндексе: 7 комментариев

  1. wmas

    Да не было там чистки очень много старого мусора осталось. Можно из любопытства посмотреть чем интересуются поисковики, я даже простенький скриптик для себя по этой теме набросал …

  2. gilza

    Можно из любопытства посмотреть чем интересуются поисковики

    Очень интересно. Давайте поподробней 😉

  3. wmas

    Да элементарная статистика, просто отслеживаем только боты (скрипт на PHP ??пилит в текстовый файл):

    <?php
    $agent = $_SERVER["HTTP_USER_AGENT"];
    if (eregi("Yandex", $agent)) $agent_name = '?ndex';
    if (eregi("Rambler", $agent)) $agent_name = 'Rambler';
    if (eregi("Google", $agent)) $agent_name = 'Google';
    if (eregi("Aport", $agent)) $agent_name = 'Aport';
    if (eregi("Yahoo",$agent)) $agent_name = 'Yahoo!';
    if (eregi("msn",$agent)) $agent_name = 'MSN';

    if (!empty($agent_name)) {
    $fp=fopen("bots.txt","a+");
    fputs($fp, $_SERVER["REMOTE_ADDR"]." ".$agent_name." ".$_SERVER["REQUEST_URI"]." ".date("d-m-y H:i")."\n");
    fclose($fp);
    }
    ?>

  4. minaton Автор записи

    Я так понял, этим скриптиком ты записывае??ь обращения ротобов к страницам. Тема про чистку базы в Яндексе. Попробую провести параллель — ты в своей статистике види??ь, что роботы обращаются к «мусорным» страницам, которые оказываются в индексе и даже после чистки не исчезают из базы. Так? 🙂

  5. wmas

    Да, но вообще есть более крутой оборот вещей. Как ты знае??ь многие поисковики Яндекс, Yahoo (это точно) индексируют страницы с параметрами, такие как: page.php?q=vasya&p=2, каким то образом имя файла пропадает и получается вот такая страница: ?q=vasya&p=2, которой естественно есть и нет одновременно. Есть index.php, но какое отно??ение он имеет к этим параметрам? Правильно – никакого. Вообще убивает и тот факт, что неоднократно увидев 404 о??ибку, паук не спе??ит удалять страницу. Да что там, паук не всегда замечает запреты robots.txt

  6. Уведомление: БЛОГика

Добавить комментарий