Поисковые системы


Поисковые системы18 September 2005

Google в своем блоге (устами руководителя отдела пользовательских веб-услуг) объясняет, почему по таким не политкорректным запросам как [failure] и [miserable failure] на первом месте в выдаче находится официальная страница биографии Бу?а на сайте Белого Дома. Собственно, мы это и без них знаем. Меня удивляет другое – такое осторожное использование слова «reluctant» – делать что-то с неохотой, по принуждению. То есть, Google признает, что такие манипуляции с помощью ссылочного ранжирования возможны, не одобряет их, выдачу не исправляет, но сказать четко «Мы не правим вручную результаты поиска и заботимся о своей репутации» почему-то не смогли. То ли дело на? Яндекс – «Нет!», как отрезали.

Поисковые системы16 September 2005

Дэнни Салливан обновил страницу списка и кратких обзоров поисковиков типа «вопрос-ответ». Список включает более 15 упоминаний о поисковых системах, в которых пользователи ищут ответ на вопрос, а не ссылку на какой-то сайт. Там мы можем встретить сервисы с различным устройством: от таких, где вы выбираете конкретного специалиста в определенной области и задаете ему вопрос, до известной Википедии.

Поисковые системы15 September 2005

Ну вот и на? заморский боль?ой брат представил поиск по блогам. На Яндексе это мы уже давно имеем (поиск по всем RSS фидам), да еще и Ленту в придачу. А вот поиск от Google мне не показался удобным, хотя есть и интересные особенности. Во-первых, сортировка по умолчанию по релевантности, а не по времени. Во-вторых, пока все ссылки уходят через редирект. В-третьих, в основном выдача состоит из LiveJournalа (оно и понятно, для русских запросов так и должно быть). В-четвертых, вряд ли Google будет успевать индексировать блоги так, как Яндекс, может быть поэтому выдача по умолчанию не по времени. Все-таки главное в блоговом поиске – оперативность, а не релевантность.

Заметили, что Google умеет почти всегда определять автора публикации? ;)

Поисковые системы6 September 2005

Сергей Петренко пригла?ен в Яндекс в качестве руководителя украинского представительства поискового портала. В сентябре в Одессе откроется офис компании «Яндекс.Украина» и пройдет пресс-конференеция.

Несколько вопросов Сергею Петренко:

- Что планирует предложить Яндекс украинским рекламодателям?
- То же, что и всем другим – качественное размещение разных видов рекламы.

- А пользователям?
- Мы не анонсируем своих планов, но можем твердо сказать – они весьма амбициозны и таят немало приятных сюрпризов для украинских пользователей.

- Что будет с Searchengines.ru? Вы планируете его продолжать вести?
- Я думаю, что Searchengines.ru так и останется крупней?им русскоязычным ресурсом о поисковых системах. Форум, где ежедневно общаются несколько тысяч человек, не может как-то пострадать от того, что один человек, пусть и его основатель, меняет место работы. Разумеется, форма моего участия в нем изменится, как – пока не могу сказать. Но продавать или как-то иначе менять его судьбу я не собираюсь.

Почему слы?ны такие грустные возгласы мол, мы потерял хоро?его оптимизатора, или станет мень?е информации? Мне кажется наоборот, показательное должностное назначение, было бы гораздо более удивительнее, если бы директором новой компании оказался другой человек. Зато теперь внутри самого влиятельного механизма в Рунете будет человек, который на собственной ?куре знает жизнь оптимизаторов, может почувствовать себя и в роли пользователя, и в роли рекламодателя, и в роли владельца рекламной площадки. Я надеюсь, что 6 сентября станет таким днем, который мы будем вспоминать только в качестве примера конструктивного и полезного для всех ?ага.

Поисковые системы6 September 2005

Недавно мы уже говорили о прогрессивных разработках в области поиска. На SearchEngines.ru опубликован перевод заметки об интересной технологии поиска Autonomy Search, которая кроме того, что умеет структурировать различные виды медиа (e-mail, аудио, видео, фото), способна распознавать речь и индексировать эти слова для поиска. К сожалению, первоначальный источник материала на сайте Financial Times временно недоступен, цитирую перевод:

Неболь?ая британская группа Autonomy по разработке ПО в последнее время работала над потенциально революционной концепцией, способной составить серьёзную конкуренцию Yahoo и Google. Autonomy подписала согла?ение с одной из крупней?их интернет-компаний в Китае – China Netcom Broadband – с количеством подписчиков, превы?ающим цифру в 110 миллионов. По условиям Согла?ения, созданный британцами сервис позволит потребителям в Китае производить в интернете поиск новостей и видеоклипов у 25 местных и национальных ТВ-компаний.

ПО от Autonomy производит поиск и каталогизацию неструктурированных данных – электронной почты, фото- и видеоматериалов – и до настоящего времени использовалось различными компаниями для сортировки внутрикорпоративной информации. Поисковик Blinkx, работающий на технологии от Autonomy, делает то же самое, хотя и в мень?их мас?табах. Согла?ение, достигнутое в Китае, позволит открыть технологии от Autonomy более ?ирокие возможности и, в преддверии возможного – по мнению некоторых обозревателей – слияния телевидения и интернета, сделает подобную услугу просто незаменимой.

Google и Yahoo полагаются на ручную разметку (tagging) для каталогизации видеоматериалов, чтобы получить возможность производить поиск такого контента. Autonomy же использует ПО для распознавания голоса, которое автоматически каталогизирует произносимые слова. Данная технология составит также серьёзную конкуренцию поисковым ма?инам (включая Google, MSN и Yahoo) в Китае, поскольку обычные поисковики имеют сложности при обработке идеограмматических текстов.

Поисковые системы5 September 2005

На SearchEngines.ru оказывается опубликована статья Николая Евдокимова «Поисковая оптимизация: от вне?него к внутреннему», в которой автор описывает цепь изменений в алгоритмах крупных поисковых систем, который в будущем могут привести нас к полному и безоговорочному господству контента (оптимизированного).

Мысль автора понятна, я даже очень хочу в это верить. Но вот несколько фраз в предпоследних двух абзацах очень режут слух:

Характерно, что для этого поисковая ма?ина вовсе не должна обладать искусственным интеллектом. Всё гораздо проще: задача может быть успе?но ре?ена (и уже ре?ается тем же Гуглом, в мень?е степени – Яндексом) при помощи обыкновенного контекстного анализа. Скажем, релевантность текста запросу «Наполеон» может быть вычислена просто на основе анализа слов и словосочетаний, наиболее часто употребляемых в этом контексте. Например, «торт», «полководец», «коньяк», «император». Так, текст, рассказывающий о Наполеоне Буонапарте, будет несравнимо более релевантен, чем повествование о новом ресторане «Наполеон». А разве не этого хочет пользователь, набрав?ий «наполеона» в строке поисковика?

Преимущество метода контекстного анализа текста заключается в том, что углублять его можно до бесконечности – позволяли бы ма?инные ресурсы, да была бы об?ирная база данных. Контекстные базы пополняются день за днем, да и с ресурсами у крупных поисковых систем проблем особых не возникает. А это означает, что уже в самом ближай?ем времени роль вне?них факторов и даже метатэгов может быть низведена практически до нуля. Поисковик получает возможность работать с контентом напрямую, всё более уверенно отличая качественный информативный текст от «мусора». Так что у нас есть все основания полагать, что недалек тот день, когда понятия «оптимизация» и «разработка контентного наполнения» станут синонимами.

Неужели Николай пропустил жаркие споры и дискуссии на форумах SearchEngines.ru и Seochase.com? Мы никогда не узнаем, чего же на самом деле хотел пользователь набрав?ий «наполеон» в строке поиска! ? это даже не потому, что это слово с маленькой буквы набрано. Даже если ?кольник хотел реферат, он мог легко переключиться на торт. Соответственно бросаться фразами что «такой-то текст будет более релевантен, чем этот» (по отно?ению к чему?) – очень опасно. Я не буду, но попро?у коллег высказаться и по поводу второго абзаца из приведенной цитаты: разве могут отказаться поисковики от такого обкатанного вне?него фактора как индекс цитирования (или PR) или от любимого ссылочного ранжирования?

Да, прочитав мысли Евгения Трофименко о способах ловли некоторых дорвеев, вроде немного успокаивае?ься – есть еще порох в пороховницах поисковиков для борьбы. Может быть действительно, Яндекс в последний раз повернулся лицом к контенту, «низвести практически до нуля» – это вряд ли. А вот словосочетание «даже метатэгов» даже меня немного улыбнуло :)

К чему все это я. Грустно, что в последнее время стало много появляться коммерческих статей. Вроде начинае?ь читать – есть мысли, но вдруг – бац!, оказывается это такая лестница к заказам соответствующих услуг. А ведь можно было очень грамотно развить идеи, взглянуть под другим углом, попытаться обратить внимание на альтернативы, подумать о пользователях, прислу?аться к словам опытных профессионалов… ? умень?ить количество ляпов.

Поисковые системы31 August 2005

Google внес улуч?ения в свой сервис Google Sitemaps. С помощью создаваемых карт сайта можно было добавлять в поисковик для индексации списки документов. Теперь этим могут заниматься вебмастера сайтов, предназначенных для мобильных устройств, то есть имеющих упрощенный дизайн и малые размеры. ? конечно же, затем добавленный сайты участвуют в поиске Google Search for the Mobile Web.

Я вот что подумал, программисты Google ведь не по собственной инициативе задерживались на пару часиков на работе, чтобы облегчить жизнь владельцам мобильных сайтов. Значит к ним приходили письма с просьбами улуч?ить сервис и добавить такую возможность. Значит эти карты сайта работают для обычных сайтов, и вебмастера хотят чтобы работали и для телефонных сайтов. Но что-то в Рунете я так и не дождался положительных отзывов о пользовании Google Sitemaps и о преимуществах этого сервиса. Может быть стоит теснее работать с ним?

Поисковые системы31 August 2005

Нельзя пройти мимо отличной обзорной статьи, опубликованной в журнале Time, под названием «Поиск: предел возможностей». Написана на доступном английском, рекомендуют к прочтению и на блоге Search Engine Roundtable, и на блоге Search Engine Watch. Для тех, у кого нет времени, перечислю доступные сегодня поисковые технологии, которые в ближай?ем будущем могут кардинально изменить на?е поведение в информационном пространстве:

  • Фото и видео. Поиск по миллионам записей, включая текстовые комментарии (Singingfish), распознание лиц на фотографиях людей и поиск по базе данных (Viisage).
  • Мобильные телефоны. Поиск с мобильного устройства (4info, Yahoo), получение любой информации об объекте, запечатленном на картинке, сделанной с мобильника (Mobot). Технология адаптации (упрощения) сайтов для экранов мобильных устройств (Yahoo).
  • Вопросы и ответы. Поиск фактов (Google). Семантический поиск – поиск по значению слов (KnowItAll), связь ключевого слова с возможным ответом в конкретной области, например, медицине (Nervana).
  • Созданное вручную. Поиск по составленным пользователями комментариям к сайтам или к картинкам (Flickr).
  • Аудио. Поиск по аудио файлам с возможностью записи аудио дорожек из видео клипов и трансформации их в текст (Blinkx.TV), технология распознавания человеческой речи и индивидуального голоса (Nexidia).
  • Карты. Виды планеты со спутника, по которым можно искать (Google Earth), подробные фотографии улиц в боль?инстве городов США на картах (A9.com), фотографии городов с самолета для трехмерного изображения (Microsoft Virtual Earth).
  • Персональный поиск. Запись истории поисковых запросов пользователя и учет его интересов для индивидуализированной выдачи информации на сайте (Findory), сбор информации на локальном компьютере (Sidebar в Google Desktop Search).

Update: Вебпланета перевела полностью статью, несколько приукрасив некоторые моменты.

Поисковые системы28 August 2005

15-19 августа 2005 года про?ла ежегодная Международная конференция АСМ SIGIR по исследованиям и разработкам в области информационного поиска. Очень интересно изучить довольно вну?ительный (пять дней) список тем докладов, среди которых заметно вну?ительное количество докладчиков из азиатского отделения Microsoft Research. Некоторые доклады Гарри Прайс из Search Engine Watch и Грег Линден, основатель Findory, обнаружили в свободном доступе. На блоге Search-Science были разобраны две темы по материалам Microsoft Research: «Организация персонального поиска на основе автоматического анализа интересов и поведения пользователей» и «Определение местонахождения пользователя в результатах поиска», Грег Линден прокомментировал доклад о персональном поиске.

Среди тем конференций были такие:

  • Анализ страницы на основе кликов (оценка страницы не только на основе текстового содержания)
  • Создание заголовка страницы на основе ее содержания и применение этого метода в поиске (в случае неверно заполненного поля заголовка title страницы, заголовок определяется при анализе тела документа)
  • Улуч?ение результатов поиска с помощью графа схожести (дополнительная сортировка результатов поиска на основе двух параметров: разнородность тем в определенной группе документов и насыщенность информацией по определенной теме конкретного документа)
  • ?спользование иерархической структуры для анализа ссылок (устранение двух проблем линейной оценки ссылок – ограниченность структуры и несправедливая оценка новых документов – учитывая иерархию доменов в адресе страницы)
  • Определение одно-фразных дубликатов в сети (техника определения созданных автоматически спам-страниц на основе ограниченного словаря фраз)
  • ?зучение развития релевантности в ?нтернет поиске
    Организация персонального поиска на основе автоматического анализа интересов и поведения пользователей (алгоритмы, учитывающие историю поведения пользователя для сортировки полученных результатов поиска, включающую поисковые запросы, посещенные страницы, просмотренные и созданные файлы и e-mail)

Вкусные материалы, как же найти столько времени, чтобы это все прочитать?

Поисковые системы25 August 2005

Предположения о периодической чистке базы Яндекса оказались наполовину верны. Александр Садовский дал несколько объяснений на актуальные темы. По поводу изменения количества документов в индексе поисковика Александр ответил:

Умень?ение этого числа на 10-20% не связано ни с потерей кластеров, ни с расстрелом дорвеев, а вызвано удалением нечетких дубликатов страниц.

Еще две хоро?ие новости. Теперь выпадений главных страниц сайтов их поиска будет мень?е, так как в Яндексе исправили замеченную о?ибку. А также боль?е не будут отличаться результаты поиска при установке разных значений «число ссылок на странице» – теперь все используется единый ке?. Хотя, может быть кому-то станет труднее следить за апдейтами на Яндексе, так как привыкли сравнивать стандартную выдачу с выдачей по 50.

С подачи Александра на блоге Яндекса опубликовано сообщение Александра Авдонкина (программист отдела разработки поисковых сервисов) об некоторых изменениях в алгоритме ранжирования, которые касаются некоторых видов запросов:

Документы, посвященные именно теме запроса, а не более ?ироким или более узким темам, теперь в результатах поиска показываются вы?е, а по названиям компаний наверху чаще встречаются сайты этих компаний, а не их партнеров или магазинов.

Страница 12 (всего 16)« начало...«1011121314»...конец »