Александр Быков, руководитель проекта «Персональный поиск Яндекса» (ППЯ), согласился ответить на несколько моих вопросов.

Александр, ППЯ появился, когда программы для организации поиска на локальном компьютере были представлены на рынке в достаточном количестве. Что не устраивало сотрудников Яндекса, например, в Google Desktop, Copernic Desktop Search или в SearchInform?
Например то, что эти продукты были не на?и :-). То есть, не были предназначены для русскоязычных пользователей. Мы делали функциональный продукт с поиском по русскоязычным документам. Надеемся, что получилось.

А когда идея создать свой собственный desktopsearch в Яндексе оформилась в проект? Когда начались разработки?
Непосредственно разработка началась в январе 2005-го, а вообще – идея годами витала в воздухе.

Сколько сотрудников работает над проектом ППЯ?
Надо понимать, что 92% кода ППЯ – это поисковое ядро и парсеры, которые используются во всех поисковых проектах Яндекса, в их разработке участвуют десятки людей. Остальные 8% были написаны специально для этого проекта неболь?ой командой.

Сколько человек уже скачали ППЯ с ва?его сервера?
По на?им данным, ППЯ сейчас ежедневно используют более 10 тыс. человек. ? это только те, кто приходит к нам за обновлениями. Непосредственно установок было боль?е – ведь ППЯ распространяется не только через на? сервер, но и другими способами (например, выходил на дисках – приложениях к нескольким журналам).

Когда будет следующая версия?
На подходе – версия 1.0, которая должна быть «стабильной». То есть, в ней не будет новой функциональности, но будут исправлены многие недочёты. Новая функциональность добавится в следующих версиях, которые тоже не за горами.

В ППЯ используется тот же алгоритм ранжирования документов, что и в боль?ом Яндексе?
Да, алгоритм такой же, это определяется общим поисковым ядром. Тем не менее, этот алгоритм имеет множество настраиваемых параметров. У «боль?ого» Яндекса одни настройки, у Яндекс.Сервера – другие, у ППЯ – третьи. Так, в ППЯ запрос из нескольких слов ищет слова во всем документе, а в «боль?ом» Яндексе – в пределах предложения. В обоих случаях при ранжировании учитывается близость слов.

На локальном компьютере пользователя много документов Word. Но в отличие от документа HTML, в них нет такого блока как тег title, важного при расчете релевантности документа. Есть только глубоко в свойствах документа поле «заголовок», которое заполняется первой строкой текста. Значит ли это, что документы Word обречены иметь более низкий вес при ранжировании результатов поиска?
Нет. Во-первых, вы сильно преувеличиваете роль тега title при ранжировании html-документов. Во-вторых, указанный вами заголовок из свойств документа Word обрабатывается аналогично тегу title.

Понимает ли ППЯ полностью язык запросов боль?ого Яндекса?
Язык запросов боль?ого Яндекса является частной реализацией языка запросов поискового ядра. В основном в ППЯ и боль?ом Яндексе язык запросов совпадает.

Какие еще типы файлов для индексации вы планируете подключать в ППЯ?
Ответ очевиден – те, которые наиболее востребованы на?ими пользователями. Следите за обновлениями ;-)

Може?ь примерно сказать, сколько времени занимает программирование и реализация дополнительных возможностей ППЯ? Например, сколько месяцев вам понадобилось для того, чтобы подключить возможность индексации баз Outlook.
Общего ответа нет: даже похожие задачи иногда различаются по трудоёмкости в десятки раз. Так, индексация писем в Outlook обо?лась нам в полтора месяца работы, а вот Outlook Express был освоен за пару недель. Кроме того, мы иногда сознательно объединяем несколько задач в одну и делаем их параллельно.

Будет ли в ППЯ возможность навигации по недавно измененным (проиндексированным) документам? Например, за день, неделю или месяц?
Она есть уже сейчас. Достаточно использовать оператор date="", который описан в справке по языку запросов Яндекса (http://help.yandex.ru/search/?id=481939).

Александр, расскажи, пожалуйста, подробнее про вкладку «Сохранённые страницы». Какие и откуда документы попадают в нее?
Данная вкладка содержит в себе все документы из ке?а браузера Internet Explorer. В следующих версиях туда же будут попадать документы из ке?а Firefox и Opera, которые сейчас можно найти в разделе «Документы».

Думали ли вы сделать на боль?ом поиске Яндекса еще одну вкладку «Персональный поиск», которая будет появляться, если у пользователя установлена программа?
Думали. ? при?ли к выводу, что подобная смесь из локального и глобального поиска неудобна и неочевидна, и, более того, в первое время будет просто пугать пользователей, которым будет казаться, что их персональные данные видны всему свету.

Может ли ППЯ быть интегрирован в результаты поиска по ?нтернету? Станет ли ППЯ по настоящему персональным поиском, например, учитывая поведение пользователя или его предыдущие запросы?
Что касается интеграции с боль?им поиском, то она, безусловно, будет.

Веде?ь ли ты еще какие-то проекты в Яндексе?
Безусловно – Яндекс.Бар, Яндекс.Сервер.

Что ты чаще всего ище?ь своим Персональным поиском Яндекса?
В основном – всяческие текстовые заметки, сделанные где-либо в срочном порядке.

Расскажи, пожалуйста, какой-нибудь забавный случай из истории ППЯ.
Например, когда мы тестировали новую версию MP3-парсера, в результате первого же теста мне удалось ли?иться всей своей MP3-коллекции. ?з-за того, что в коде остался пережиток про?лого в виде команды «удалить весь созданный мусор после индексации».

Александр, боль?ое спасибо за ответы на вопросы. Мы надеемся, что ППЯ будет развиваться и принесет боль?ую пользу каждому пользователю. Желаю удачи тебе, Яндексу и ППЯ!
Удачного поиска!

Вопросы задавал
Константин Рощупкин (seotext.ru)
Рунет, январь 2006 г.