Поисковые системы16 August 2005

Блог Search-Science публикует статью под названием «Мой индекс боль?е твоего», которая немного напоминает попытку оправдания Google в том, что база проиндексированных документов у Yahoo боль?е в два раза. Опечатка в первом абзаце – название поисковика Yahoo с маленькой буквы – почти по Фрейду :).

Автор говорит о том, что боль?ой индекс – это плохо. Боль?ой индекс быстро устаревает и требует серьезных ресурсов, чтобы его обновлять. Ресурсы поискового робота могут быть растрачены на обработку невостребованной информации, документов, которые не изменялись, или даже на поисковый спам. Усложняется ранжирование.

Автор указывает, что такой боль?ой индекс может быть получен за счет документов-дублей или за счет информации, которую Google посчитал бы не важной. Хоро?о, если Yahoo проиндексировал глубокий веб (Deep Web), но Google не может это проверить, так как в ответ на простой поисковый запрос мы можем получить огромное количество релевантной информации.

Тем не менее, автор признает важность тех усилий, которые предпринимает Yahoo в деле персонализации для облегчения доступа к информации. Но тут же повторяет, что для обработки боль?ого количества информации для удовлетворения возрастающих запросов таких технологий, так же как и для работы с боль?им индексом, нужны серьезные технические ресурсы.

Далее автор привлекает на?е внимание к тому факту, что в серпе Yahoo не указывается дата, когда робот обработал документ, тогда как Google и MSN такую дату отображают, пытаясь показать, что в базах с мень?им количеством документов информация более свежая. Чем боль?е становится индекс, тем боль?е появляется проблем. Может быть мы в ближай?ее время будем замечать, что паук Yahoo станет приходить на сайт реже?

В итоге автор при?ел к выводу, что самое главное – это релевантность результатов поиска. Объявление о том, что на? индекс боль?е чем у других, предназначено для посетителей, так как чем боль?е документов, тем луч?е будут результаты поиска.

Прекрасный вывод, но его можно было получить и без высасывания из пальца проблем, которые якобы могут появится в поисковой ма?ине с боль?им индексом. Релевантность результатов поиска очень слабо связана с количеством проиндексированных документов и является предметом совсем другого разговора.

Поисковые системы15 August 2005

Алексей Кравцов (Miracle) поделился на форуме своими наблюдениями о количестве проиндексированных документов в Яндексе. Эта цифра публикуется на главной странице поисковика. Алексей заметил, что база постоянно растет, а иногда после апдейтов цифра становится мень?е и предположил, что это может быть плановой чисткой документов в индексе. Глядя на значения за последние 7 недель, можно подумать, что в начале каждого месяца в индексе происходит уборка. Для боль?ей уверенности в выводах нужно иметь данные еще за несколько месяцев.

Количество проиндексированных документов в базе Яндекса

Высказались предположения о пределе скорости индексирования роботом, о темпах прироста Рунета и о новых индексирующих серверах, недавно запущенных Яндексом, о чем можно судить по выраженному линейному участку на графике. Кстати, подобный график можно построить, взяв для оси Х не календарные даты, а апдейты, kittenk предположил, что чистка может происходить через определенное количество апдейтов.

Юмор /Копирайтинг14 August 2005

Действительно забавные фразы и опечатки из сочинений по русскому языку :) ЕГЭ этого года – Перлы “знатоков” русского языка на сайте Грамма.Ру:

  • Он знает, какие это срадания.
  • Когда-то его достоинство было опущено.
  • Автор ловко и к месту использует средства выразительности.
  • Автор за недолгие 42 года поведал нам о нелегкой судьбе замечательного путе?ественника Миклухо-Маклая.
  • Не было стимула объяснять какой-либо феноним.
  • Автор использует экспрессивный набор слов.
  • Может и создадется когда-нибудь идеальное общество.
  • Все в мире связано с помощью передачи ценностей от учителя к ученику.
  • Я боюсь согласиться с автором и принять его точку зрения.
  • Ни один человек не станет скрывать своих духовных ценностей.
  • Слепость и глухость к людскому достоинству.
  • Немалоизвестные люди.
  • Автор использует повтор для насыщения текста различными видами красочных слов.
  • Автор мог бы немного смягчить смерть Муму.
  • Эгоизм главного героя счел, что его любовь важнее.
  • Молодецкая страсть охватила юно?еское сердце по весне.
  • …Герасима – бедного героя произведения, немого, нищего и с одной собакой!
  • Его няня Арина Родионовна оставила на нем отпечаток.
  • Как трактировать последнюю строку?
  • Читатель должен направить ум на поиски главной идеи текста.
  • Боль?инство писателей пи?ут поэзии о милосердии.
  • На мой взгляд, я разделяю позицию автора.
?нтернет13 August 2005

К моему глубокому сожалению, сегодня узнал (спасибо Михаилу Корнееву), что мой сайт seotext.ru был взломан злоумы?ленниками. ?ндексный файл заменен на чужой, состоящий из одной строчки «weee darkXside was here». Ситуацию я сразу исправил, суппорт хостинга смог только посоветовать изменить пароль и контактный e-mail. С последней уязвимостью движка блога WordPress это вряд ли связано, так как я успел сделать необходимые изменения еще днем. Это первый случай со взломом моих сайтов, останется очень неприятный осадок на ду?е и неуверенность – теперь кто-то знает мой пароль или что-то еще…

SEO13 August 2005

Нам бы хотелось увидеть краткое содержание всех секций про?ед?ей международной конференции Search Engine Strategies 2005, но будем довольствоваться тем, что есть. Мне бы хотелось знать, что было на секции «Writing For Search Engines», но пока про нее никто не написал, есть только несколько абзацев с про?лого года. На Search Engine Roundtable есть список всех секций с обзорами. Крисс Богз опубликовал неболь?ие заметки о двух проведенных днях на конференции. Вот некоторые цитаты:

Американский рынок поисковой рекламы к 2010 году вырастет до 7,5 миллиардов долл (в Рунете весь рекламный оборот в сети еще не превысил одного миллиарда). Для боль?инства клиентов он-лайн магазинов период между поиском информации в поисковиках и осуществлением покупки составляет более двух недель, совет – устанавливать долгое время действия куков. Вот это НЕ ПРАВДА: взаимные ссылки плохие, исходящие ссылки без ответных приносят вред, учитываются только ссылки с PR=3 и вы?е, ссылки из каталога DMOZ имеют боль?ий вес, ссылающиеся на вас плохие сайты могут навредить, для хоро?его ранжирования нужно много ссылок.

? еще два дня ждут своего отчета.

SEO11 August 2005

Еще несколько обзоров интересных секций на проходящей международной конференции в Сан-Хосе, США.

Круглый стол с представителями поисковых систем о будущем отрасли. Yahoo в первую очередь говорит про свой поиск по картинкам Flickr и о том, что компьютер – это ма?ина и не может ре?ить, что на картинке изображена ло?адь. То есть ре?ать, что важно в результатах поиска должен человек, поэтому соединение социального поиска с обычным должно пойти на пользу всем. Yahoo верит в персонализацию и в ее возможности. Google рассказал о том, что у семантического веба дела идут хоро?о, дальней?ее развитие – коммьюнити (группы людей), которые должны иметь возможность сообщать компьютеру свои ре?ения. Немного поговорили о картах Земли и о кадрах для исследовательской деятельности.

В секции локального поиска практичные советы для малобюджетных рекламных кампаний для местных рынков.

Вопросы и ответы о ссылках очень интересны. Представители поисковых систем дают более жесткий совет о количестве параметров в динамических адресах – не более 3 параметров и разрядность цифр не более 4.

Секции юзабилити, продажа/покупка ссылок, продвинутая работа с ссылками, противоречивая новая секция о здоровье ва?его сайта.

Копирайтинг11 August 2005

Компания IBM выложит в открытый доступ скрипты программного обеспечения своей технологии поиска по понятиям. Этот вид поиска подразумевает, что поисковая система сама будет искать дополнительно к запросу его синонимы, рас?ифровки, аббревиатуры, то есть семантически похожие запросы. На сайте CNews.ru говорится, что эта технология поиска разрабатывалась при поддержке Управления перспективных исследований Министерства обороны США. В IBM стали боль?е внимания уделять поиску, может быть это в будущем к чему-нибудь приведет.

SEO10 August 2005

Появляются первые отчеты участников с проходящей международной конференции Search Engine Strategies 2005. На форуме SEW в отдельной ветке публикуются краткие обзоры секций.

По поводу динамических сайтов на секции было ясно, что особых проблем с индексацией не будет (если количество параметров не более 6), но знак вопроса в строке адреса – это сигнал поисковику, что движок сайта построен на ?аблонах. Рас?ирение у файла уже не играет никакой роли. К известным факторам, которые ме?ают индексации (идентификаторы сессий, дублирование контента, клоакинг, отсутствие отклика от сервера), добавляются косвенные факторы: необходимость в куках, ява скрипт, флэ?, геотаргетинг и персонализация.

Новая секция о тех, кто любит копать глубоко. Речь о формуле релевантности или алгоритмах поисковых систем. Два типа людей – «оптимизаторы по формуле» и «специалисты по юзабилити» – имеют разные цели сайта (позиционирование сайта в серпе и конверсация посетителей). Но наилуч?ий вариант – золотая середина.

Беседа с исполнительным директором поисковика Ask Jeeves Стивом Берковиц, в которой он рассказал, что в следующем году их работа будет сконцентрирована на поисковых технологиях.

?нтернет10 August 2005

Компания ABBYY ре?ила собирать разговорный язык российских городов в виде словаря в проекте «Языки русских городов». Так как это пока просто словарь, который, кстати, легко подключается в Lingvo, то это скорее «Слова русских городов». Полезная для лингвистов и специалистов по лексикографии вещь, любопытная для простых людей. Например, слова обезьянник (как говорят в Москве), телевизор и аквариум (как говорят в Питере и в Белоруссии) имеют одно и тоже значение – ограниченное ре?еткой помещение для задержанных около дежурного по отделению милиции. В Москве и в Саратове говорят «?аурма», а в Питере «?аверма».

В проекте может принять участие любой желающий, отправив в редакцию свои находки. Сейчас в словаре уже есть слова из Москвы, Петербурга, Курска, Н.Новгорода, Владимира, ?ваново, Омска, Барнаула, Новосибирска, Красноярска, ?ркутска, Челябинска, Магнитогорска, Воронежа, а также из Украины, Белоруссии, Киргизии.

?нтернет8 August 2005

?нтересное исследование о настроениях в ?нтернет форумах разных стран по поводу конкретных событий. Была изучена реакция ?нтернет публики на события 9-11 сентября 2001 года в США, которая бурно выражалась на форумах. Выводы пока не уте?ительные: участники дискуссий разделились на лагеря, при этом четко придерживаясь принадлежности к определенной нации, то есть эмигранты не считаются полноценными гражданами при выражении своих мыслей. Когда же ?нтернет станет интернациональным коммьюнити?

Страница 47 (всего 60)« начало...«4546474849»...конец »