Rambler's Top100
Все новости Новости компаний

Real-time «Яндекс»

12 июля 2010

«Яндекс» разработал и внедрил новую поисковую технологию, которая позволяет находить документы, появившиеся в Сети буквально несколько минут назад

Достаточно много поисковых запросов (от 2% в спокойные дни до 8% в дни важных событий) посвящено событиям, которые случились совсем недавно. Задавая эти запросы, пользователи ожидают найти в том числе и документы, которые были созданы только что. Для опреативного реагирования на такие запросы поисковая система «Яндекса», во-первых, научилась выявлять их среди общего потока, и во-вторых, внедрила нового поискового робота — Orange. Orange работает в режиме реального времени. Он умеет находить свежие документы, как только они появились в интернете, индексировать их и выкладывать на поисковые сервера буквально за несколько секунд.

Некоторые сайты интернета обновляются не очень часто, а на других — например, на новостных ресурсах — новые документы создаются постоянно. Orange обходит такие сайты и добавляет новые документы в поиск по мере их появления, без задержек.

Чтобы определять, нужна ли свежая информация в ответ на те или иные запросы, «Яндекс» разработал несколько детекторов. Они анализируют самую разную информацию — например, тематику сообщений в СМИ или рост количества поисковых запросов по той или иной теме.

«В интернете сейчас все больше real-time информации, которая нужна людям прямо сейчас. И мы хотим дать им возможность находить её прямо сейчас, — говорит Федор Романенко, менеджер качества поиска. — Это только первый шаг, конечно, мы будем улучшать качество поиска по новостным запросам и дальше. Новая технология дает возможность делать это сравнительно легко».

Робот Orange и технология поиска в реальном времени были разработаны специалистами из Yandex.Labs — калифорнийского офиса компании — в сотрудничестве с разработчиками из московского офиса.

До последнего времени в поисковике Яндекса действовал так называемый «быстрый робот». В его задачу входила быстрая индексация и выкладывание на поиск наиболее ценных новых документов. Быстрый робот неплохо решал эту задачу, однако имел определенные ограничения, так, например, никакими усилиями нельзя было получить обработку пакетов документов быстрее чем за 20 минут. А значит, и информацию пользователи получали с  задержкой.

Поделиться:
Заметили неточность или опечатку в тексте? Выделите её мышкой и нажмите: Ctrl + Enter. Спасибо!

Оставить свой комментарий:

Для комментирования необходимо авторизоваться!

Комментарии по материалу

Данный материал еще не комментировался.