Поисковые системы


Поисковые системы25 August 2005

Компания Софт?нформ выпустила пресс-релиз (который ценен тем, что по объему более походит на статью) о своей технологии поиска SoftInform Search Technology. Это поиск документов, похожих по своему содержанию на заданный образец, который будет интегрирован в систему управления корпоративными информационными ресурсами компании Hummingbird. В статье указаны проблемы некоторых видов поиска – локального, корпоративного и глобального, и предлагается воспользоваться технологией полнотекстового поиска документов:

Кроме основного назначения технологии поиска похожих – а это быстрый и качественный поиск информации в гигантских массивах (текстах, архивах, базах данных) – можно выделить также и интернет направление. Например, возможна разработка экспертной системы для обработки входящей корреспонденции и новостей, которая станет важным инструментом для аналитиков из различных компаний. Прежде всего это произойдет за счет того, что ни в одной существующей системе нет поиска документов похожих по содержанию на заданный. Сюда же можно отнести ре?ение проблемы спама поисковых ма?ин с помощью дорвеев (скрытых страниц с ключевыми словами, перенаправляющих на основные страницы сайта и использующихся для искусственного повы?ения рейтинга ресурсов в поисковиках) и проблемы e-mail спама (анализ на более высоком и интеллектуальном уровне – что существенно надежней существующих систем). Но самым интересным и перспективным направление развития SoftInform Search Technology в сфере интернет является создание поискового движка, основное отличие которого от существующих аналогов будет в том, что поиск будет осуществляться не только по ключевым словам, но и по похожим веб документам, что добавит в поиск гибкости и сделает его намного более удобным и качественным.

Автор делает вывод «будущее – за технологиями полнотекстового поиска похожих документов». К сожалению, взгляд на проблему с этой стороны может оказаться не совсем верным. Пользователю не важно «как ма?ина ищет», ему будет важно «какой результат ма?ина выдаст», при этом он хочет, чтобы сам запрос был как можно более простым или даже походил на вопрос. А вот о проблеме релевантности результатов поиска автор как раз и не упомянул. Но ведь это самый главный вопрос в разговоре о технологиях поиска.

Безусловно, поиск похожих документов может оказаться полезным в руках продвинутых пользователей, и это мы наблюдаем во всех сегодня?них стандартных поисковых системах в виде дополнительной ссылки «похожие страницы» или «похожие документы». Но ведь этапу поиска похожего документа пред?ествует этап выбора. Кстати, пользователю может не понадобится «поиск похожих», если он будет удовлетворен выдачей поисковой системы. Поэтому задача правильного поиска – это задача не «как искать», а задача «где искать» и «каков будет результат».

Поисковые системы23 August 2005

Яндекс запускает быстрого робота, Я.Ленту, изменяет результаты поиска (углубляет влияние Я.Афи?и и сдвигает текст влево). Рамблер обновляет сетку вещания своего телеканала. ?нвестиции, полученные благодаря размещению акций, были направлены на развитие RamblerTV. Так кто же станет русским Yahoo для русского Google – Яндекса? Неужели Рамблер смирился с первым местом Яндекса?

Поисковые системы22 August 2005

Вебпланета представила краткий перевод отрывка из книги The Search Джона Баттеле. Мы сейчас беспокоимся о качестве поиска, ищем новые поисковые технологии, а здесь взгляд направлен в далекое (или недалекое – 20 лет) будущее. Вот цитата:

Подумайте об этом — через Google вы можете найти свою собаку, своего ребенка, ко?елек, мобильный телефон, автомобиль. Этот список будет быстро рас?иряться практически до бесконечности. Где угодно может быть чип, и где он есть — там с боль?ой вероятностью будет и поиск. Тогда мы приблизимся к тому, что Баттел называет ?деальным Поиском — когда к Сети будут подключены все живые и неживые объекты, представляющие хотя бы какую-то ценность в физическом мире. Все идет к тому, что человечество добровольно поселится внутри поискового интерфейса.

Поисковые системы19 August 2005

Если уж теперь в серпе над первой строчкой показывается информация от Яндекс.Афи?и при определенных запросах, то уж постеснялись бы еще и на первое место ставить найденную страницу на Я.Афи?е. А то можно и волну гневных возгласов поднять.

Яндекс.Афи?а с единичкой

Кстати, случайно заметил единицу и нолик в левом верхнем углу, которые появляются при некоторых запросах с показом этой самой Афи?и. Чтобы это значило?

Яндекс.Афи?а с ноликом

Поисковые системы17 August 2005

В США существует организация ACSI, которая измеряет степень удовлетворенности покупателей. По последним данным за второй квартал 2005 года в сфере электронной коммерции поисковая система Google имеет 82 пунктов из 100, а портал Yahoo – 80 пунктов. Дэнни Салливан обращает внимание на различные категории, по которым оценивались эти две компании, но в целом они отражают действительность – Yahoo вплотную приближается к Google, не смотря на то, что количество поисковых запросов в Google равно количеству вместе взятых Yahoo, MSN, AOL и AskJeeves.

Кстати, интересна общая тенденция степени удовлетворенности поисковыми сервисами США, смотрите график. Google занял лидирующие позиции и крепко на них держится. Но все остальные поисковики двигаются вверх, причем самый заметный рывок демонстрирует AOL.

Степень удовлетворенности покупателей в 2003-2005 годах

Поисковые системы16 August 2005

Блог Search-Science публикует статью под названием «Мой индекс боль?е твоего», которая немного напоминает попытку оправдания Google в том, что база проиндексированных документов у Yahoo боль?е в два раза. Опечатка в первом абзаце – название поисковика Yahoo с маленькой буквы – почти по Фрейду :).

Автор говорит о том, что боль?ой индекс – это плохо. Боль?ой индекс быстро устаревает и требует серьезных ресурсов, чтобы его обновлять. Ресурсы поискового робота могут быть растрачены на обработку невостребованной информации, документов, которые не изменялись, или даже на поисковый спам. Усложняется ранжирование.

Автор указывает, что такой боль?ой индекс может быть получен за счет документов-дублей или за счет информации, которую Google посчитал бы не важной. Хоро?о, если Yahoo проиндексировал глубокий веб (Deep Web), но Google не может это проверить, так как в ответ на простой поисковый запрос мы можем получить огромное количество релевантной информации.

Тем не менее, автор признает важность тех усилий, которые предпринимает Yahoo в деле персонализации для облегчения доступа к информации. Но тут же повторяет, что для обработки боль?ого количества информации для удовлетворения возрастающих запросов таких технологий, так же как и для работы с боль?им индексом, нужны серьезные технические ресурсы.

Далее автор привлекает на?е внимание к тому факту, что в серпе Yahoo не указывается дата, когда робот обработал документ, тогда как Google и MSN такую дату отображают, пытаясь показать, что в базах с мень?им количеством документов информация более свежая. Чем боль?е становится индекс, тем боль?е появляется проблем. Может быть мы в ближай?ее время будем замечать, что паук Yahoo станет приходить на сайт реже?

В итоге автор при?ел к выводу, что самое главное – это релевантность результатов поиска. Объявление о том, что на? индекс боль?е чем у других, предназначено для посетителей, так как чем боль?е документов, тем луч?е будут результаты поиска.

Прекрасный вывод, но его можно было получить и без высасывания из пальца проблем, которые якобы могут появится в поисковой ма?ине с боль?им индексом. Релевантность результатов поиска очень слабо связана с количеством проиндексированных документов и является предметом совсем другого разговора.

Поисковые системы15 August 2005

Алексей Кравцов (Miracle) поделился на форуме своими наблюдениями о количестве проиндексированных документов в Яндексе. Эта цифра публикуется на главной странице поисковика. Алексей заметил, что база постоянно растет, а иногда после апдейтов цифра становится мень?е и предположил, что это может быть плановой чисткой документов в индексе. Глядя на значения за последние 7 недель, можно подумать, что в начале каждого месяца в индексе происходит уборка. Для боль?ей уверенности в выводах нужно иметь данные еще за несколько месяцев.

Количество проиндексированных документов в базе Яндекса

Высказались предположения о пределе скорости индексирования роботом, о темпах прироста Рунета и о новых индексирующих серверах, недавно запущенных Яндексом, о чем можно судить по выраженному линейному участку на графике. Кстати, подобный график можно построить, взяв для оси Х не календарные даты, а апдейты, kittenk предположил, что чистка может происходить через определенное количество апдейтов.

Поисковые системы7 August 2005

Если в рас?иренном поиске Google попробовать найти страницы, похожие на yandex.ru или на сам google.ru, то все как полагается – они похожи сами на себя и на Rambler и Aport. А если то же самое мы будем проделывать в Яндексе, то найдем только страницы, похожие на yandex.ru (при этом безо всяких Рамблеров и Апортов), а на запросы найти похожие страницы на rambler.ru или google.com, Яндекс говорит «Пустой поисковый запрос». Во как! Для Яндекса Рамблер и Google – пустое место :)

Поисковые системы6 August 2005

Недавно открытое исследовательское отделение в Yahoo, на которое будет потрачена основная часть из ежегодного 500 миллионного бюджета компании на технические разработки, будет возглавлять доктор Прабакар Рагаван, которого Гарри Прайс с SEW Blog называет легендой в мире веб поиска. Рагаван работал 14 лет в IBM, затем в компании Verity. В статье на ZDNet рассказывается подробнее и приводятся некоторые комментарии самого Рагавана, которые явно интереснее стандартных фраз в официальном сообщении на Yahoo. Вот некоторые цитаты:

ZDNet: В моем разговоре с Прабакаром Рагаваном, я понял, что Yahoo хотят получить Нобелевскую премию за свои научные достижения. Я не думаю, что Рагаван преувеличивает. Поиск и персонализация, которые используют преимущества отобранной информации и связей, находятся все еще в начальной стадии развития. Yahoo, Google, Microsoft, Amazon и другие боль?ие игроки на рынке понимают, что успех будет у того, кто будет предлагать ответы, а не ссылки, и кто будет развиваться в направлении, в котором миллионы потребителей и поставщиков контента найдут свое место в экономической и социальной схеме.

Прабакар Рагаван: У нас есть два представления как улуч?ить поиск. Боль?инство людей не интересует просто поиск – они хотят найти ре?ение проблемы. Будущее поиска – стать дружелюбным к тем, кто хочет ре?ить свои дела. Никто не хочет провести две недели, сидя по вечерам за клавиатурой и соединять воедино ва? план поездки в отпуск. Людям нужен такой механизм, который просто выдает ответы, основанный на прогрессивных технологиях, следующих за технологиями поисковых роботов и индексацией страниц.

Прабакар Рагаван: Слово персонализация стало иметь очень много смыслов, а иногда его употребляют сли?ком тривиально, но ведь речь не о простой настройке цветовой схемы на главной странице MyYahoo. Смысл персонализации основан на социальном факте, в котором учитывается поведение остальных участников, особенно похожих на самого пользователя. Мы всегда стремились к идеальному совмещению контента, контекста и коммьюнити. Но еще более интересно становится когда пользователь оказывается не только потребителем, но и производителем информации. Обработка информации и история действий пользователя вместе с этим эффектом вкупе предлагают огромные возможности. Необходимо определить, какую информацию пользователь будет считать релевантной, и при этом не раздражать его ли?ней информацией.

Если, судя по объему SEO/SEM рынка, Рунет отстает на 4 года от Запада, то в подобном глобальном развитии мы, скорее всего, еще доль?е будем ждать серьезных инвестиций от на?ей боль?ой тройки.

Поисковые системы5 August 2005

Колитесь, кто писал в Яндекс письмо по поводу словаря? :)

Страница 13 (всего 16)« начало...«1112131415»...конец »