Поиск по блогу

воскресенье, 12 апреля 2009 г.

Ждали Анадырь, получили Арзамас!


Здравствуйте, Друзья!

Опять Яндекс нас порадовал своими обновлениями. Правда на этот раз все не так сложно, поменялось только название новоиспеченного алгоритма поиска и теперь он называется Арзамас.

И так, что же теперь умеет делать Яндекс:

Снятие омонимии

Яндекс научился еще лучше понимать русский язык, разрешая неоднозначности слов в запросах.

Как известно, знание русской морфологии позволяет поиску Яндекса находить больше полезных ответов. Если вы спросили [реконструкция Маяковской], мы покажем также страницу со словами [станция Маяковская открылась после реконструкции]. Но русский язык -- тонкий, сложный и неоднозначный. Тем, кто ищет [фото львов], могут быть нужны как фотографии животных, так и фотографии города Львова. Человек может уточнить свое высказывание, добавив к нему одно или несколько слов: [фото африканских львов] или [фото город львов]. Теперь эти уточнения наш поиск научился понимать.

Мы реализовали алгоритм снятия омонимии, позволяющий во многих случаях определить, какое слово имеется в виду, и предлагаем в ответ только документы с формами нужного слова. По запросу [фото африканских львов] пользователь получит в ответ документы со словами "лев", "льва", "льву", но не получит документы, где встречаются лишь слова "Львова" или "Львову".

Как мы научили машину отличать, когда речь идет о животных, а когда -- о городах? Алгоритм снятия омонимии основан на анализе данных запросов наших пользователей, учитывает частоту слов в Интернете и их сочетаемость, а также опирается на лексическую статистику слов из Национального корпуса русского языка -- академического проекта, разрабатываемого при поддержке Яндекса. При анализе неоднозначного запроса мы выбираем наиболее частотную модель. Выбор в пользу наиболее вероятной конструкции помогает понять, что "день рыбака" -- это не призыв, а праздник, а "платья придворных дам" -- не обещание поделиться одеждой.

А любимый наш вопрос -- тот, на который мы знаем целых два правильных ответа. Звучит он так: "Сколько голов у Павлюченко?"


Пишет Александр Садовский. Это далеко не все изменения, которые притерпел алгоритм ранжирования Яндекса. Как видно из цитаты, Садовский рассказывает о том, чем Яндекс стал лучше для пользователей, а вот о технической стороне не сказано ни слова. Хотелось бы побольше узнать по каким признакам теперь будут ранжироваться страницы в выдаче. Надеюсь в ближайшем будущем команда Яндекса представит на общее обозрение хотябы видимую часть айсберга ;).

Понравилась статья, подпишись на RSS.

1 комментарий:

  1. Да ничего так новый алгоритм, как я работаю все равно все на плаву и хорошо индексируется. Ждал этого апа выдачи, все сайты вошли в индекс и ни одного не вылетело )).

    По выдачи небольшие плюсы(видимость +1,2 %). Будем ждать еще апа Тица должны быть неплохие плюсы.

    ОтветитьУдалить

Ratings and Recommendations by outbrain