Вариант будущего в Интернет-поиске
Deep web очень огромен, поисковики поэтому и не хотят туда проникать, потому что если доберутся до него, вряд ли справятся с объемом индексации.
Открытый Интернет будет расти такими темпами, за которыми машинные ресурсы не угонятся. В конце концов, придется удалять из индекса документы старее, например, полугода или даже месяца. Будет развиваться собственный поиск на порталах в их архивах. Также будет развиваться локальный поиск на компьютере пользователя – desktop search, который будет строить индивидуальные архивы документов для конкретного пользователя.
А глобальные поисковые системы будут еле-еле поспевать за индексацией появляющихся страниц на блогах, тредов на форумах и разделов на вики-подобных сервисах.
Кстати, очень часто думаю, что Яндексу как раз не хватает desktop search приблуды. Вот такую штуку я бы точно поставил себе на комп – очень удобно. И жду - не дождусь персонального поиска в Яндексе. Думается, что уже потихоньку начинает проявляться.
URL записи: http://blog.seotext.ru/internet/228/
URL для trackback: http://blog.seotext.ru/internet/228/trackback/



А что вы вкладываете в понятие: “десктоп сеарч, сделано в Яндексе”?
Yandex DesktopSearch – это Google DesktopSearch, локализованный для России. Ну и плюс мои личные пожелания – индексировать базу The Bat, возможность отключить кеширование версий страниц, чтобы уменьшить размер индекса, поиск в Яндексе по умолчанию, не нужны всякие Outlook или AIM, а в идеале – чтобы можно было настраивать какие типы файлов индексировать. Наверняка будет интеграция со всеми сервисами Яндекса - сегодняшними и будущими
В принципе - база Бата индексируется и гуглом. Плагин для этого существует.
http://www.vgirlos2.narod.ru/thebat.html
Но это в принципе, что-то там не в порядке и дыры в индексе имеются. Я точно знаю, что письмо есть, но оно не находится.
В Яндексе есть персональное поисковое пространство - Яндекс.Лента. Если бы она ещё работала…
Я.Лента только для RSS. А почему не работает? Я там ЖЖ друзей читаю и за подпиской слежу.
А почему это Яндекс.Лента не работает? Работает, и нормально. Понимает RSS, ЖЖ и поиковые запросы по блогам и новостям. Лично я с лета пользуюсь, и прусь, как слон.
На самом деле – система выживет. Дело упрощается тем, что мощности сетей растут, компов – тоже. Но это – фон.
Самое главное, вот что – сайты – в поиске, в том, что бы их находили заинтересованы. Система не такая – «есть поисковики, которые не справляются и всё пропало». Система – «есть сайты, их жизненно необходимо индексировать, есть места где, общепринято индексами пользоваться (поисковые сайты то есть)». Система взаимопроникающая и взаимно заинтересованная друг в друге.
То есть. Даже если предположить, что всемогущий гуголь не сможет иметь столько ресурсов, сколько требуется для полной индексации расширяющейся сети, их, эти ресурсы будут предоставлять сами владельцы сайтов. Будут какие-то общепринятые процедуры, делегирования свободных мощностей, вытаскивания «наружу» в сеть готовых сформированных индексов, забора их поисковиком и так далее.
Ну то есть - самый обычный симбиоз, самый обычный web 3.0.
Я полагаю, что поиск будет только улучшаться. То есть если сейчас надо вводит ключевые слова - в будущем будет достаточно только желать. Или, уже совсем скоро, только спрашивать на человеческом языке и получать релевалентные результаты.
Блин, при чём тут поиск по блогам и новостям?! Это отдельные сервисы, которые к Яндекс.Ленте отношения не имеют. Рассматривайте их как баннер, включённый в интерфейс Ленты. Интересное новшество там - поиск по Ленте, то есть - буквально - поиск в прочитанном. В самом начале эта функция работала, но потом перестала, и не работает до сих пор:( А это основной довод за пользование Яндекс-лентой.
Кроме того, каждый второй раз Лента сообщает мне, что у меня нет фидов (при том, что меня вполне узнаёт, и даже показывает мои ключевые слова). В общем, сервис потенциально хороший (я и сейчас им пользуюсь, ожидая, что его исправят), но недоделанный. Но у меня складывается впечатление, что его забросили.
Отключить кэширование веб-страничек можно уже и сейчас, в гугле. Галочка Web history в настройках - кажется веб-страничками и управляет.
Однако починили (поиск по прочитанному). Но произошло это в последние два-три дня.
Что значит, “не работает до сих пор”? В моей ленте поиск почему-то работает.
Иван, это очень правильная позиция - “есть сайты, их жизненно необходимо индексировать”. Но если часть работы отдать веб-мастерам, чтобы они помогали ПС индексировать - этим будут заниматься только коммерческие веб-мастера по коммерческим запросам и небольшое количество любителей. Вот Google SiteMap - кто ей пользуется?
Галочка Web history в настройках - что-то не вижу такое… У меня всего 20% проиндексировано - уже 400 Mb размер индекса. А раздел на диске всего 5 Gb, проиндексировать я хочу 2,5 GB, из которых 700 Mb - mp3. То есть по сути размер индекса для desktop search примерно будет равен месту, занимаемому файлами
Но отдача ведь будет “потом”. Она если будет, будет хитрой. Глубоко интегрированной в стандартный Апач, блог движок и т.д. Её и видеть никто особо не будет. Просто будет работать. Без настроек, без ничего.
Должна быть галочка. Preferences раздел Search Types.
У меня вторая версия дестопа, возможно она существует только в ней? Хотя я сомневаюсь…
Индекс у Гугла, я слыхал такие оценки, что небольшой. Ведь часто индекс бывает больше чем данные.
Что-то я не пойму про какую галочку речь…

Email
Chats
… следующая та что нужна - Web history
Иван, как перевести “Index the following items so that you can search for them”? Примерно “Проиндексировать следующие типы для поиска”. Как это относится к возможности включения\выключения кеширования проиндексированных страниц? Или мы друг друга не поняли?
Так не будут если веб-странички из истории индексироваться, то и в кеш они пападать не станут.
Разве нет?
Нет, это не то. А остальные HTML страницы, документы DOC, XLS?
А остальные будут. “Текст и озер файлз”, отдельная кнопка для Ворд, для Эксель… Я так думаю.