15-19 августа 2005 РіРѕРґР° РїСЂРѕС?ла ежегодная Международная конференция РђРЎРњ SIGIR РїРѕ исследованиям Рё разработкам РІ области информационного РїРѕРёСЃРєР°. Очень интересно изучить довольно РІРЅСѓС?ительный (пять дней) СЃРїРёСЃРѕРє тем докладов, среди которых заметно РІРЅСѓС?ительное количество докладчиков РёР· азиатского отделения Microsoft Research. Некоторые доклады Гарри Прайс РёР· Search Engine Watch Рё Грег Линден, основатель Findory, обнаружили РІ СЃРІРѕР±РѕРґРЅРѕРј доступе. РќР° блоге Search-Science были разобраны РґРІРµ темы РїРѕ материалам Microsoft Research: «Организация персонального РїРѕРёСЃРєР° РЅР° РѕСЃРЅРѕРІРµ автоматического анализа интересов Рё поведения пользователей» Рё «Определение местонахождения пользователя РІ результатах поиска», Грег Линден прокомментировал доклад Рѕ персональном РїРѕРёСЃРєРµ.

Среди тем конференций были такие:

  • Анализ страницы РЅР° РѕСЃРЅРѕРІРµ кликов (оценка страницы РЅРµ только РЅР° РѕСЃРЅРѕРІРµ текстового содержания)
  • Создание заголовка страницы РЅР° РѕСЃРЅРѕРІРµ ее содержания Рё применение этого метода РІ РїРѕРёСЃРєРµ (РІ случае неверно заполненного поля заголовка title страницы, заголовок определяется РїСЂРё анализе тела документа)
  • УлучС?ение результатов РїРѕРёСЃРєР° СЃ помощью графа схожести (дополнительная сортировка результатов РїРѕРёСЃРєР° РЅР° РѕСЃРЅРѕРІРµ РґРІСѓС… параметров: разнородность тем РІ определенной РіСЂСѓРїРїРµ документов Рё насыщенность информацией РїРѕ определенной теме конкретного документа)
  • Р?спользование иерархической структуры для анализа ссылок (устранение РґРІСѓС… проблем линейной оценки ссылок – ограниченность структуры Рё несправедливая оценка новых документов – учитывая иерархию доменов РІ адресе страницы)
  • Определение РѕРґРЅРѕ-фразных дубликатов РІ сети (техника определения созданных автоматически спам-страниц РЅР° РѕСЃРЅРѕРІРµ ограниченного словаря фраз)
  • Р?зучение развития релевантности РІ Р?нтернет РїРѕРёСЃРєРµ
    Организация персонального поиска на основе автоматического анализа интересов и поведения пользователей (алгоритмы, учитывающие историю поведения пользователя для сортировки полученных результатов поиска, включающую поисковые запросы, посещенные страницы, просмотренные и созданные файлы и e-mail)

Вкусные материалы, как же найти столько времени, чтобы это все прочитать?