Поисковые системы


Поисковые системы14 December 2005

Черт, как приятно видеть на своем компьютере иконку в виде красненькой буквы Я.

Программа сразу начинает индексирование файлов, до того как я укажу что индексировать, а что – нет. Согласен, в боль?инстве случаев это нормально, но, например, мне диск С: не нужен в индексе, а Yandesk начинает именно с этого диска.

В настройках не на?ел такого типа файлов, как архивы. Судя по всему, программа их в любом случае индексирует. Я хотел бы, чтобы файлы zip, rar, gz и т.д. не индексировались.

Нельзя указать место для хранения файлов индекса. Yandesk по умолчанию их складывает в C:\Documents and Settings\_user_\Application Data\Yandex\Desktop

В лицензионном согла?ении ничего не сказано о сведениях, собираемых на компьютере пользователя и отсылаемых в Яндекс. А программа устанавлиявает соединение с доменом с “говорящим” именем export.yandex.ru

Поисковые системы14 December 2005

Ну вот, друзья. То, чего мы так долго ждали, свер?илось. Яндекс представил свой desktopsearch «Персональный поиск Яндекса». Судя по описанию, программа достаточно продуманна, файлы для индексации: DOC, XLS, PPT, PDF, SWF, HTML, TXT, MP3 и почтовые базы Outlook и Outlook Express

Пока не понятно, смогут ли сторонние разработчики писать подключаемые модули (нужна индексация баз The Bat). ? оказалось чуть неудобным скачивать программу – нет прямой ссылки на файл, чтобы забрать его download менеджером.

Пойду пробовать…

Update: Рас?ирения к программе в будущем можно будет делать. Поддержка почтовых баз клиентов Thunderbird и The Bat будет в следующей версии программы.

Поисковые системы11 December 2005

К сожалению, не получилось попробовать поработать с SearchInform Desktop 1.7. Ни с trial, ни с free версиями. Триальная программа вела себя странно, выдавала какие-то о?ибки, спотыкалась при индексации почтовой базы The Bat. Бесплатная версия сделала такой финт: проиндексировав 22 973 документа, останавливает индексацию, при ручном запуске индексации программа делает вид, что продолжает обрабатывать документы, но опят останавливает процесс и количество документов сбрасывается до 22 926. Продолжаем индексацию до 22 973 документов, но программа останавливается и история повторяется.

9 декабря компания SoftInform Ltd. выпустил пресс-релиз, сообщающий о новой версии SearchInform 1.7.13. Но у меня пока не возникает желания скачивать и тестировать.

Попробуем Copernic Desktop Search. Очень долго сканировал папки с документами, причем размер не боль?ой – около 3 Гб. Оказалось, что программа сканирует разные типы документов порциями: сначала текстовые документы, потом только графические файлы. По сравнению с SearchInform – не такое наглядное отображение процесса индексирования документов и не такая удобная настройка объектов для сканирования (в SearchInform есть возможность создать несколько индексов и гибче настроить папки и типы файлов для сканирования).

Процесс поиска достаточно приятен на всех этапах. Внизу на панели задач Windows размещает поле для ввода поискового запроса. Программа начинает искать по мере набора букв. Результаты поиска можно сортировать по дате, по типу файла или по папке, в которой находятся документы. Есть окно быстрого просмотра найденных файлов – HTML и Word довольно ?устро открываются, картинки удобно листаются по очереди.

Всё таки меня не оставляет ощущение, что программа Copernic Desktop Search работает за моей спиной. Все проиндексированные данные разделены на типы: текст, картинки, контакты, история ?нтернета, почта. Может быть из-за этого и из-за упрятанного процесса сканирования мне постоянно кажется, что параметр «полнота поиска» сли?ком мал.

То ли дело Google Desktop – забирает все подряд и выводит все подряд. Просто и полно – то, что нужно для поиска на локальном компьютере. Как же выбрать между Copernic и Google?

Поисковые системы10 December 2005

Сервис Del.icio.us теперь есть часть Yahoo!. Это здорово. Цену сделки оценивают в 17-19 млн. долл. Количество пользователей Del.icio.us – более 300000 человек. Это вну?ительная цифра. Приятная сторона: Джереми Заводный из Yahoo намекает на то, что Del.icio.us будет похож на MyWeb 2.0 и наоборот, MyWeb может перенять некоторые идеи от Del.icio.us.

Поисковые системы8 December 2005

Яндекс добавил ссылку «Поиск по блогам» внизу страницы обычного поиска. Спасибо вам боль?ое, ведь действительно удобно.

Поисковые системы4 December 2005

Джон Баттел задает конкретные вопросы и требует конкретных ответов, в частности у Google, по поводу тех персональных данных пользователей, которые автоматически собираются и накапливаются: что за информацию вы собираете? как я могу проверить ее? для чего вы ее используете? кто имеет к ней доступ? как я могу защитить ее? как удалить или управлять ею?

Представьте себе такой сценарий. Программист, который имеет доступ к базе данных, собирает всю информацию, связанную с молодыми блондинками: финансовые счета, адрес, e-mail, фото, записи в блогах, связи в социальных сервисах, историю поисковых запросов и т.д. Программист может работать в любой компании: Google, Yahoo, Amazon или Microsoft. Всю информацию он скопировал на свой дома?ний компьютер.

В том городи?ке, где живет на? программист, случается серия изнасилований молодых блондинок. Раскрыть эти преступления не удается. Местная полиция бессильна, политики в панике, появился «охотник за блондинками».

Одну из жертв находят убитой. Потом еще одну. Скандал государственного уровня.

Коллега, который работал с программистом, замечает странное поведение последнего. Сообщает руководителю отдела, тот незамедлительно в полицию.

Полиция делает обыск, изымает компьютер, взламывает папку с файлами, закрытую паролем «горячие молоденькие ?тучки». Сообщают прессе, начинается всеобщая ?умиха, всех вытаскивают на публику и т.д.

Смысл: для простого программиста добыть такую информацию оказалось очень легко, а мы столь беззащитны перед несанкционированным доступом к своим персональным данным.

Хоро?о. Один из членов конгресса США призывает принять закон «Американская за?ита». Закон запрещает ?нтернет компаниям собирать любую пользовательскую информацию без их письменного согласия на это. Закон принимают без проблем. Количество новых продуктов и инноваций умень?ается, прогресс в области поиска затухает. Параноидальные граждане начинают пользоваться ?нтернетом чуть спокойнее.

Наверняка, Джон написал свой пост под впечатлением недавней новости о том, что для обвинения убийцы своей жены использовали данные о том, что его последний поисковый запрос в Google был «?ея свернуть сломать».

Поисковые системы29 November 2005

Блог СоНоты углядел новость от мета-поиска Нигма. Нигма собирается создать свой индекс Рунета и стать не мета-поиском, а просто поиском. Альфа-тестирование закончится уже к концу года (торопятся успеть рань?е Вебальты).

(Читать далее…)

Поисковые системы18 November 2005

Swicki

Поиск для коммьюнити – Swicki. Это такая ?тукенция, похожая на обычный поиск, но который можно адаптировать к определенной тематике и к определенному коммьюнити.

Созданная вами свики:

  • сама обучается по истории запросов пользователей
  • выдает результаты, более релевантные к ва?ей тематике
  • показывает «облако» популярных запросов

То есть форма поиска встраивается в ва? сайт или блог, а вы можете заранее внести ограничения и фильтры для создаваемой поисковой ма?инки: ключевые слова или адреса сайтов, наиболее близких по смыслу, блоги, категории, сайты-исключения. Если согласны – разре?ите показывать рекламу в серпах, вам будет причитаться процент. На страницах результат поиска каждую ссылку можно «приподнять» или «опустить».

Попытка сделать продвинутый «социальный» аналог Rollyo.

Все бы хоро?о, но с русским языком явные проблемы. Созданный для тестирования Swicki выдавал всякую чу?ь…

Поисковые системы14 November 2005

В четверг 10 ноября оказывается была введена в эксплуатацию мета-поисковая система «Поиск в сМЕТАне». ?з информации пресс-релиза мы узнаем, что он берет данные из основных поисковых ма?ин (позже мы поймем, что это Yandex, Rambler и Google), анализирует только первые 50 ссылок с каждой, данные обобщаются, фильтруются и выдаются в том порядке, в каком они были в поисковых системах.

Первое, чем удивляет сМЕТАна – самое длинное поле для ввода, которое мне встречалось :) Серпы всегда строятся из результатов поисковиков в последовательности Я-Р-Г. Распознать домен с www и без не получается, в выдаче и простой вариант (от Яндекса), и вариант с www (от Рамблера). Мне показалось, что сМЕТАна доверяет боль?е всех Яндексу. Например, в запросе дизайн все позиции Яндекса приведены без исключений. Не понятно как работают упоминаемые спам-фильтры. Например, сайт studio-renaissance.ru по запросу дизайн есть в выдаче и Google, и Рамблера, но в сМЕТАну он не попал…

На странице по 25 ссылок. Уже есть свой контекстный движок (объявления которого, кстати, не обозначены как реклама). Заметил некоторые глюки в постраничной навигации – умень?ение количества подготовленных ссылок, хотя может быть это не глюки, а работа фильтра на лету.

Можно использовать как сервис проверки позиций сайта по конкретным запросам. Для каждой ссылки указывается: где она была найдена, ее место во всех трех поисковых системах. Вполне пригодный инструмент, требующий неболь?их доработок.

Поисковые системы4 November 2005

Google подал заявку на патент о системе и методах индивидуальной сортировки результатов поиска Personalization of placed content ordering in search results. Летом мы уже слы?али о заявках на патенты для рекламных объявлений, связанные с таргетингом и персонализацией на основе истории поведения пользователя. Сейчас мы видим попытки Google использовать собранную информацию о пользователе для ранжирования результатов поиска:

A system and method for using a user profile to order placed content in search results returned by a search engine. The user profile is based on search queries submitted by a user, the user’s specific interaction with the documents identified by the search engine and personal information provided by the user. Placed content is ranked by a score based at least in part on a similarity of a particular placed content to the user’s profile. User profiles can be created and/or stored on the client side or server side of a client-server network environment.

Основа новой системы ранжирования – индекс профиля (Profile Rank), как дальней?ее развитие Page Rank и существующего алгоритма ранжирования. Нужно заметить, что новая система имеет отличия от персонализированного поиска. Google Personalized Search работал только внутри самого поиска, когда пользователь согла?ался составлять свою историю запросов и когда он был зарегистрированным пользователем. Profile Rank следит за действиями пользователя даже когда он не работает в поисковой системе Google. Дополнительную информацию, такую как возраст, образование, географическое положение и т.д., пользователь может раскрывать по своему желанию.

?нтересно, что каждый документ будет иметь свой вес, в том числе в зависимости от тематики. У каждого сайта может быть свой индекс QueryScore, зависящий от соответствия запросу. Далее вычисляется GenericScore=QueryScore*PageRank. А Profile Rank, или PersonalizedScore, будет рассчитываться по формуле, в которой используются меры соответствия найденного документа параметрам из профиля пользователя: PersonalizedScore=GenericScore*(TermScore+CategoryScore+LinkScore)

В патенте учтена ситуация, когда за одним компьютером могут работать несколько пользователей, например, в библиотеках. ?дентификация пользователя может осуществляться при его авторизации на сайте. Возможен также другой способ. Google предлагает определять пользователя по тому, как он перемещает курсор мы?ки, печатает на клавиатуре, по разному использует разные программы.

Должно быть очень занимательное чтиво, правда довольно объемное. Лорен Бейкер с Search Engine Journal предлагает даже распечатать и перечитывать по нескольку раз. Ведь здесь можно многое почерпнуть о будущем развитии поиска в Google.

Страница 10 (всего 16)« начало...«89101112»...конец »