Александр Быков о Персональном поиске Яндекса
Александр Быков, руководитель проекта «Персональный поиск Яндекса» (ППЯ), согласился ответить на несколько моих вопросов.
Александр, ППЯ появился, когда программы для организации поиска на локальном компьютере были представлены на рынке в достаточном количестве. Что не устраивало сотрудников Яндекса, например, в Google Desktop, Copernic Desktop Search или в SearchInform?
Например то, что эти продукты были не на?и :-). То есть, не были предназначены для русскоязычных пользователей. Мы делали функциональный продукт с поиском по русскоязычным документам. Надеемся, что получилось.
А когда идея создать свой собственный desktopsearch в Яндексе оформилась в проект? Когда начались разработки?
Непосредственно разработка началась в январе 2005-го, а вообще – идея годами витала в воздухе.
Сколько сотрудников работает над проектом ППЯ?
Надо понимать, что 92% кода ППЯ – это поисковое ядро и парсеры, которые используются во всех поисковых проектах Яндекса, в их разработке участвуют десятки людей. Остальные 8% были написаны специально для этого проекта неболь?ой командой.
Сколько человек уже скачали ППЯ с ва?его сервера?
По на?им данным, ППЯ сейчас ежедневно используют более 10 тыс. человек. ? это только те, кто приходит к нам за обновлениями. Непосредственно установок было боль?е – ведь ППЯ распространяется не только через на? сервер, но и другими способами (например, выходил на дисках – приложениях к нескольким журналам).
Когда будет следующая версия?
На подходе – версия 1.0, которая должна быть «стабильной». То есть, в ней не будет новой функциональности, но будут исправлены многие недочёты. Новая функциональность добавится в следующих версиях, которые тоже не за горами.
В ППЯ используется тот же алгоритм ранжирования документов, что и в боль?ом Яндексе?
Да, алгоритм такой же, это определяется общим поисковым ядром. Тем не менее, этот алгоритм имеет множество настраиваемых параметров. У «боль?ого» Яндекса одни настройки, у Яндекс.Сервера – другие, у ППЯ – третьи. Так, в ППЯ запрос из нескольких слов ищет слова во всем документе, а в «боль?ом» Яндексе – в пределах предложения. В обоих случаях при ранжировании учитывается близость слов.
На локальном компьютере пользователя много документов Word. Но в отличие от документа HTML, в них нет такого блока как тег title, важного при расчете релевантности документа. Есть только глубоко в свойствах документа поле «заголовок», которое заполняется первой строкой текста. Значит ли это, что документы Word обречены иметь более низкий вес при ранжировании результатов поиска?
Нет. Во-первых, вы сильно преувеличиваете роль тега title при ранжировании html-документов. Во-вторых, указанный вами заголовок из свойств документа Word обрабатывается аналогично тегу title.
Понимает ли ППЯ полностью язык запросов боль?ого Яндекса?
Язык запросов боль?ого Яндекса является частной реализацией языка запросов поискового ядра. В основном в ППЯ и боль?ом Яндексе язык запросов совпадает.
Какие еще типы файлов для индексации вы планируете подключать в ППЯ?
Ответ очевиден – те, которые наиболее востребованы на?ими пользователями. Следите за обновлениями
Може?ь примерно сказать, сколько времени занимает программирование и реализация дополнительных возможностей ППЯ? Например, сколько месяцев вам понадобилось для того, чтобы подключить возможность индексации баз Outlook.
Общего ответа нет: даже похожие задачи иногда различаются по трудоёмкости в десятки раз. Так, индексация писем в Outlook обо?лась нам в полтора месяца работы, а вот Outlook Express был освоен за пару недель. Кроме того, мы иногда сознательно объединяем несколько задач в одну и делаем их параллельно.
Будет ли в ППЯ возможность навигации по недавно измененным (проиндексированным) документам? Например, за день, неделю или месяц?
Она есть уже сейчас. Достаточно использовать оператор date="", который описан в справке по языку запросов Яндекса (http://help.yandex.ru/search/?id=481939).
Александр, расскажи, пожалуйста, подробнее про вкладку «Сохранённые страницы». Какие и откуда документы попадают в нее?
Данная вкладка содержит в себе все документы из ке?а браузера Internet Explorer. В следующих версиях туда же будут попадать документы из ке?а Firefox и Opera, которые сейчас можно найти в разделе «Документы».
Думали ли вы сделать на боль?ом поиске Яндекса еще одну вкладку «Персональный поиск», которая будет появляться, если у пользователя установлена программа?
Думали. ? при?ли к выводу, что подобная смесь из локального и глобального поиска неудобна и неочевидна, и, более того, в первое время будет просто пугать пользователей, которым будет казаться, что их персональные данные видны всему свету.
Может ли ППЯ быть интегрирован в результаты поиска по ?нтернету? Станет ли ППЯ по настоящему персональным поиском, например, учитывая поведение пользователя или его предыдущие запросы?
Что касается интеграции с боль?им поиском, то она, безусловно, будет.
Веде?ь ли ты еще какие-то проекты в Яндексе?
Безусловно – Яндекс.Бар, Яндекс.Сервер.
Что ты чаще всего ище?ь своим Персональным поиском Яндекса?
В основном – всяческие текстовые заметки, сделанные где-либо в срочном порядке.
Расскажи, пожалуйста, какой-нибудь забавный случай из истории ППЯ.
Например, когда мы тестировали новую версию MP3-парсера, в результате первого же теста мне удалось ли?иться всей своей MP3-коллекции. ?з-за того, что в коде остался пережиток про?лого в виде команды «удалить весь созданный мусор после индексации».
Александр, боль?ое спасибо за ответы на вопросы. Мы надеемся, что ППЯ будет развиваться и принесет боль?ую пользу каждому пользователю. Желаю удачи тебе, Яндексу и ППЯ!
Удачного поиска!
Вопросы задавал
Константин Рощупкин (seotext.ru)
Рунет, январь 2006 г.
Pingback: А вы пользуетесь персональным поиском Яндекса? | WEB-DESIGN