15-19 августа 2005 года про?ла ежегодная Международная конференция АСМ SIGIR по исследованиям и разработкам в области информационного поиска. Очень интересно изучить довольно вну?ительный (пять дней) список тем докладов, среди которых заметно вну?ительное количество докладчиков из азиатского отделения Microsoft Research. Некоторые доклады Гарри Прайс из Search Engine Watch и Грег Линден, основатель Findory, обнаружили в свободном доступе. На блоге Search-Science были разобраны две темы по материалам Microsoft Research: «Организация персонального поиска на основе автоматического анализа интересов и поведения пользователей» и «Определение местонахождения пользователя в результатах поиска», Грег Линден прокомментировал доклад о персональном поиске.

Среди тем конференций были такие:

  • Анализ страницы на основе кликов (оценка страницы не только на основе текстового содержания)
  • Создание заголовка страницы на основе ее содержания и применение этого метода в поиске (в случае неверно заполненного поля заголовка title страницы, заголовок определяется при анализе тела документа)
  • Улуч?ение результатов поиска с помощью графа схожести (дополнительная сортировка результатов поиска на основе двух параметров: разнородность тем в определенной группе документов и насыщенность информацией по определенной теме конкретного документа)
  • ?спользование иерархической структуры для анализа ссылок (устранение двух проблем линейной оценки ссылок – ограниченность структуры и несправедливая оценка новых документов – учитывая иерархию доменов в адресе страницы)
  • Определение одно-фразных дубликатов в сети (техника определения созданных автоматически спам-страниц на основе ограниченного словаря фраз)
  • ?зучение развития релевантности в ?нтернет поиске
    Организация персонального поиска на основе автоматического анализа интересов и поведения пользователей (алгоритмы, учитывающие историю поведения пользователя для сортировки полученных результатов поиска, включающую поисковые запросы, посещенные страницы, просмотренные и созданные файлы и e-mail)

Вкусные материалы, как же найти столько времени, чтобы это все прочитать?