Компания Софт?нформ выпустила пресс-релиз (который ценен тем, что по объему более походит на статью) о своей технологии поиска SoftInform Search Technology. Это поиск документов, похожих по своему содержанию на заданный образец, который будет интегрирован в систему управления корпоративными информационными ресурсами компании Hummingbird. В статье указаны проблемы некоторых видов поиска – локального, корпоративного и глобального, и предлагается воспользоваться технологией полнотекстового поиска документов:

Кроме основного назначения технологии поиска похожих – а это быстрый и качественный поиск информации в гигантских массивах (текстах, архивах, базах данных) – можно выделить также и интернет направление. Например, возможна разработка экспертной системы для обработки входящей корреспонденции и новостей, которая станет важным инструментом для аналитиков из различных компаний. Прежде всего это произойдет за счет того, что ни в одной существующей системе нет поиска документов похожих по содержанию на заданный. Сюда же можно отнести ре?ение проблемы спама поисковых ма?ин с помощью дорвеев (скрытых страниц с ключевыми словами, перенаправляющих на основные страницы сайта и использующихся для искусственного повы?ения рейтинга ресурсов в поисковиках) и проблемы e-mail спама (анализ на более высоком и интеллектуальном уровне – что существенно надежней существующих систем). Но самым интересным и перспективным направление развития SoftInform Search Technology в сфере интернет является создание поискового движка, основное отличие которого от существующих аналогов будет в том, что поиск будет осуществляться не только по ключевым словам, но и по похожим веб документам, что добавит в поиск гибкости и сделает его намного более удобным и качественным.

Автор делает вывод «будущее – за технологиями полнотекстового поиска похожих документов». К сожалению, взгляд на проблему с этой стороны может оказаться не совсем верным. Пользователю не важно «как ма?ина ищет», ему будет важно «какой результат ма?ина выдаст», при этом он хочет, чтобы сам запрос был как можно более простым или даже походил на вопрос. А вот о проблеме релевантности результатов поиска автор как раз и не упомянул. Но ведь это самый главный вопрос в разговоре о технологиях поиска.

Безусловно, поиск похожих документов может оказаться полезным в руках продвинутых пользователей, и это мы наблюдаем во всех сегодня?них стандартных поисковых системах в виде дополнительной ссылки «похожие страницы» или «похожие документы». Но ведь этапу поиска похожего документа пред?ествует этап выбора. Кстати, пользователю может не понадобится «поиск похожих», если он будет удовлетворен выдачей поисковой системы. Поэтому задача правильного поиска – это задача не «как искать», а задача «где искать» и «каков будет результат».