Александр Быков, руководитель проекта «Персональный поиск Яндекса» (ППЯ), согласился ответить на несколько моих вопросов.
Александр, ППЯ появился, когда программы для организации поиска на локальном компьютере были представлены на рынке в достаточном количестве. Что не устраивало сотрудников Яндекса, например, в Google Desktop, Copernic Desktop Search или в SearchInform?
Например то, что эти продукты были не на??и :-). То есть, не были предназначены для русскоязычных пользователей. Мы делали функциональный продукт с поиском по русскоязычным документам. Надеемся, что получилось.
А когда идея создать свой собственный desktopsearch в Яндексе оформилась в проект? Когда начались разработки?
Непосредственно разработка началась в январе 2005-го, а вообще — идея годами витала в воздухе.
Сколько сотрудников работает над проектом ППЯ?
Надо понимать, что 92% кода ППЯ – это поисковое ядро и парсеры, которые используются во всех поисковых проектах Яндекса, в их разработке участвуют десятки людей. Остальные 8% были написаны специально для этого проекта неболь??ой командой.
Сколько человек уже скачали ППЯ с ва??его сервера?
По на??им данным, ППЯ сейчас ежедневно используют более 10 тыс. человек. ?? это только те, кто приходит к нам за обновлениями. Непосредственно установок было боль??е – ведь ППЯ распространяется не только через на?? сервер, но и другими способами (например, выходил на дисках – приложениях к нескольким журналам).
Когда будет следующая версия?
На подходе — версия 1.0, которая должна быть «стабильной». То есть, в ней не будет новой функциональности, но будут исправлены многие недочёты. Новая функциональность добавится в следующих версиях, которые тоже не за горами.
В ППЯ используется тот же алгоритм ранжирования документов, что и в боль??ом Яндексе?
Да, алгоритм такой же, это определяется общим поисковым ядром. Тем не менее, этот алгоритм имеет множество настраиваемых параметров. У «боль??ого» Яндекса одни настройки, у Яндекс.Сервера – другие, у ППЯ – третьи. Так, в ППЯ запрос из нескольких слов ищет слова во всем документе, а в «боль??ом» Яндексе — в пределах предложения. В обоих случаях при ранжировании учитывается близость слов.
На локальном компьютере пользователя много документов Word. Но в отличие от документа HTML, в них нет такого блока как тег title, важного при расчете релевантности документа. Есть только глубоко в свойствах документа поле «заголовок», которое заполняется первой строкой текста. Значит ли это, что документы Word обречены иметь более низкий вес при ранжировании результатов поиска?
Нет. Во-первых, вы сильно преувеличиваете роль тега title при ранжировании html-документов. Во-вторых, указанный вами заголовок из свойств документа Word обрабатывается аналогично тегу title.
Понимает ли ППЯ полностью язык запросов боль??ого Яндекса?
Язык запросов боль??ого Яндекса является частной реализацией языка запросов поискового ядра. В основном в ППЯ и боль??ом Яндексе язык запросов совпадает.
Какие еще типы файлов для индексации вы планируете подключать в ППЯ?
Ответ очевиден — те, которые наиболее востребованы на??ими пользователями. Следите за обновлениями 😉
Може??ь примерно сказать, сколько времени занимает программирование и реализация дополнительных возможностей ППЯ? Например, сколько месяцев вам понадобилось для того, чтобы подключить возможность индексации баз Outlook.
Общего ответа нет: даже похожие задачи иногда различаются по трудоёмкости в десятки раз. Так, индексация писем в Outlook обо??лась нам в полтора месяца работы, а вот Outlook Express был освоен за пару недель. Кроме того, мы иногда сознательно объединяем несколько задач в одну и делаем их параллельно.
Будет ли в ППЯ возможность навигации по недавно измененным (проиндексированным) документам? Например, за день, неделю или месяц?
Она есть уже сейчас. Достаточно использовать оператор date="", который описан в справке по языку запросов Яндекса (http://help.yandex.ru/search/?id=481939).
Александр, расскажи, пожалуйста, подробнее про вкладку «Сохранённые страницы». Какие и откуда документы попадают в нее?
Данная вкладка содержит в себе все документы из ке??а браузера Internet Explorer. В следующих версиях туда же будут попадать документы из ке??а Firefox и Opera, которые сейчас можно найти в разделе «Документы».
Думали ли вы сделать на боль??ом поиске Яндекса еще одну вкладку «Персональный поиск», которая будет появляться, если у пользователя установлена программа?
Думали. ?? при??ли к выводу, что подобная смесь из локального и глобального поиска неудобна и неочевидна, и, более того, в первое время будет просто пугать пользователей, которым будет казаться, что их персональные данные видны всему свету.
Может ли ППЯ быть интегрирован в результаты поиска по ??нтернету? Станет ли ППЯ по настоящему персональным поиском, например, учитывая поведение пользователя или его предыдущие запросы?
Что касается интеграции с боль??им поиском, то она, безусловно, будет.
Веде??ь ли ты еще какие-то проекты в Яндексе?
Безусловно – Яндекс.Бар, Яндекс.Сервер.
Что ты чаще всего ище??ь своим Персональным поиском Яндекса?
В основном – всяческие текстовые заметки, сделанные где-либо в срочном порядке.
Расскажи, пожалуйста, какой-нибудь забавный случай из истории ППЯ.
Например, когда мы тестировали новую версию MP3-парсера, в результате первого же теста мне удалось ли??иться всей своей MP3-коллекции. ??з-за того, что в коде остался пережиток про??лого в виде команды «удалить весь созданный мусор после индексации».
Александр, боль??ое спасибо за ответы на вопросы. Мы надеемся, что ППЯ будет развиваться и принесет боль??ую пользу каждому пользователю. Желаю удачи тебе, Яндексу и ППЯ!
Удачного поиска!
Вопросы задавал
Константин Рощупкин (seotext.ru)
Рунет, январь 2006 г.

Уведомление: А вы пользуетесь персональным поиском Яндекса? | WEB-DESIGN