Александр Быков, руководитель проекта «РџРµСЂСЃРѕРЅР°Р»СЊРЅС‹Р№ РїРѕРёСЃРє Яндекса» (РџРџРЇ), согласился ответить РЅР° несколько РјРѕРёС… РІРѕРїСЂРѕСЃРѕРІ.

Александр, ППЯ появился, когда программы для организации поиска на локальном компьютере были представлены на рынке в достаточном количестве. Что не устраивало сотрудников Яндекса, например, в Google Desktop, Copernic Desktop Search или в SearchInform?
Например то, что эти продукты были РЅРµ РЅР°С?Рё :-). РўРѕ есть, РЅРµ были предназначены для русскоязычных пользователей. РњС‹ делали функциональный РїСЂРѕРґСѓРєС‚ СЃ РїРѕРёСЃРєРѕРј РїРѕ русскоязычным документам. Надеемся, что получилось.

А когда идея создать свой собственный desktopsearch в Яндексе оформилась в проект? Когда начались разработки?
Непосредственно разработка началась РІ январе 2005-РіРѕ, Р° вообще – идея годами витала РІ РІРѕР·РґСѓС…Рµ.

Сколько сотрудников работает над проектом ППЯ?
Надо понимать, что 92% РєРѕРґР° РџРџРЇ – это РїРѕРёСЃРєРѕРІРѕРµ СЏРґСЂРѕ Рё парсеры, которые используются РІРѕ всех поисковых проектах Яндекса, РІ РёС… разработке участвуют десятки людей. Остальные 8% были написаны специально для этого проекта небольС?РѕР№ командой.

Сколько человек уже скачали РџРџРЇ СЃ РІР°С?его сервера?
РџРѕ РЅР°С?РёРј данным, РџРџРЇ сейчас ежедневно используют более 10 тыс. человек. Р? это только те, кто РїСЂРёС…РѕРґРёС‚ Рє нам Р·Р° обновлениями. Непосредственно установок было больС?Рµ – ведь РџРџРЇ распространяется РЅРµ только через РЅР°С? сервер, РЅРѕ Рё РґСЂСѓРіРёРјРё способами (например, выходил РЅР° дисках – приложениях Рє нескольким журналам).

Когда будет следующая версия?
РќР° РїРѕРґС…РѕРґРµ – версия 1.0, которая должна быть «СЃС‚абильной». РўРѕ есть, РІ ней РЅРµ будет РЅРѕРІРѕР№ функциональности, РЅРѕ Р±СѓРґСѓС‚ исправлены РјРЅРѕРіРёРµ недочёты. Новая функциональность добавится РІ следующих версиях, которые тоже РЅРµ Р·Р° горами.

Р’ РџРџРЇ используется тот же алгоритм ранжирования документов, что Рё РІ больС?РѕРј Яндексе?
Да, алгоритм такой же, это определяется общим поисковым СЏРґСЂРѕРј. Тем РЅРµ менее, этот алгоритм имеет множество настраиваемых параметров. РЈ «Р±РѕР»СЊС?РѕРіРѕ» Яндекса РѕРґРЅРё настройки, Сѓ Яндекс.Сервера – РґСЂСѓРіРёРµ, Сѓ РџРџРЇ – третьи. Так, РІ РџРџРЇ запрос РёР· нескольких слов ищет слова РІРѕ всем документе, Р° РІ «Р±РѕР»СЊС?РѕРј» Яндексе – РІ пределах предложения. Р’ РѕР±РѕРёС… случаях РїСЂРё ранжировании учитывается близость слов.

РќР° локальном компьютере пользователя РјРЅРѕРіРѕ документов Word. РќРѕ РІ отличие РѕС‚ документа HTML, РІ РЅРёС… нет такого блока как тег title, важного РїСЂРё расчете релевантности документа. Есть только глубоко РІ свойствах документа поле «Р·Р°РіРѕР»РѕРІРѕРє», которое заполняется первой строкой текста. Значит ли это, что документы Word обречены иметь более РЅРёР·РєРёР№ вес РїСЂРё ранжировании результатов РїРѕРёСЃРєР°?
Нет. Во-первых, вы сильно преувеличиваете роль тега title при ранжировании html-документов. Во-вторых, указанный вами заголовок из свойств документа Word обрабатывается аналогично тегу title.

Понимает ли РџРџРЇ полностью язык запросов больС?РѕРіРѕ Яндекса?
Язык запросов больС?РѕРіРѕ Яндекса является частной реализацией языка запросов РїРѕРёСЃРєРѕРІРѕРіРѕ СЏРґСЂР°. Р’ РѕСЃРЅРѕРІРЅРѕРј РІ РџРџРЇ Рё больС?РѕРј Яндексе язык запросов совпадает.

Какие еще типы файлов для индексации вы планируете подключать в ППЯ?
Ответ очевиден – те, которые наиболее востребованы РЅР°С?РёРјРё пользователями. Следите Р·Р° обновлениями ;-)

МожеС?СЊ примерно сказать, сколько времени занимает программирование Рё реализация дополнительных возможностей РџРџРЇ? Например, сколько месяцев вам понадобилось для того, чтобы подключить возможность индексации баз Outlook.
Общего ответа нет: даже похожие задачи РёРЅРѕРіРґР° различаются РїРѕ трудоёмкости РІ десятки раз. Так, индексация писем РІ Outlook РѕР±РѕС?лась нам РІ полтора месяца работы, Р° РІРѕС‚ Outlook Express был освоен Р·Р° пару недель. РљСЂРѕРјРµ того, РјС‹ РёРЅРѕРіРґР° сознательно объединяем несколько задач РІ РѕРґРЅСѓ Рё делаем РёС… параллельно.

Будет ли в ППЯ возможность навигации по недавно измененным (проиндексированным) документам? Например, за день, неделю или месяц?
Она есть уже сейчас. Достаточно использовать оператор date="", который описан в справке по языку запросов Яндекса (http://help.yandex.ru/search/?id=481939).

Александр, расскажи, пожалуйста, подробнее РїСЂРѕ вкладку «РЎРѕС…ранённые страницы». Какие Рё откуда документы попадают РІ нее?
Данная вкладка содержит РІ себе РІСЃРµ документы РёР· РєРµС?Р° браузера Internet Explorer. Р’ следующих версиях туда же Р±СѓРґСѓС‚ попадать документы РёР· РєРµС?Р° Firefox Рё Opera, которые сейчас можно найти РІ разделе «Р”окументы».

Думали ли РІС‹ сделать РЅР° больС?РѕРј РїРѕРёСЃРєРµ Яндекса еще РѕРґРЅСѓ вкладку «РџРµСЂСЃРѕРЅР°Р»СЊРЅС‹Р№ РїРѕРёСЃРє», которая будет появляться, если Сѓ пользователя установлена программа?
Думали. Р? РїСЂРёС?ли Рє выводу, что подобная смесь РёР· локального Рё глобального РїРѕРёСЃРєР° неудобна Рё неочевидна, Рё, более того, РІ первое время будет просто пугать пользователей, которым будет казаться, что РёС… персональные данные РІРёРґРЅС‹ всему свету.

Может ли РџРџРЇ быть интегрирован РІ результаты РїРѕРёСЃРєР° РїРѕ Р?нтернету? Станет ли РџРџРЇ РїРѕ настоящему персональным РїРѕРёСЃРєРѕРј, например, учитывая поведение пользователя или его предыдущие запросы?
Что касается интеграции СЃ больС?РёРј РїРѕРёСЃРєРѕРј, то РѕРЅР°, безусловно, будет.

ВедеС?СЊ ли ты еще какие-то проекты РІ Яндексе?
Безусловно – Яндекс.Бар, Яндекс.Сервер.

Что ты чаще всего ищеС?СЊ СЃРІРѕРёРј Персональным РїРѕРёСЃРєРѕРј Яндекса?
Р’ РѕСЃРЅРѕРІРЅРѕРј – всяческие текстовые заметки, сделанные РіРґРµ-либо РІ срочном РїРѕСЂСЏРґРєРµ.

Расскажи, пожалуйста, какой-нибудь забавный случай из истории ППЯ.
Например, РєРѕРіРґР° РјС‹ тестировали РЅРѕРІСѓСЋ версию MP3-парсера, РІ результате первого же теста РјРЅРµ удалось лиС?иться всей своей MP3-коллекции. Р?Р·-Р·Р° того, что РІ РєРѕРґРµ остался пережиток РїСЂРѕС?лого РІ РІРёРґРµ команды «СѓРґР°Р»РёС‚СЊ весь созданный РјСѓСЃРѕСЂ после индексации».

Александр, больС?РѕРµ спасибо Р·Р° ответы РЅР° РІРѕРїСЂРѕСЃС‹. РњС‹ надеемся, что РџРџРЇ будет развиваться Рё принесет больС?СѓСЋ пользу каждому пользователю. Желаю удачи тебе, Яндексу Рё РџРџРЇ!
Удачного поиска!

Вопросы задавал
Константин Рощупкин (seotext.ru)
Рунет, январь 2006 г.