Оптимизация для поисковых систем: особенности морфологии Яндекса

16

Сегодня мы затронем животрепещущую тему русского языка. А именно – его понимание Яндексом и Google, которое, мягко говоря, отличается от нашего.

Русский язык – один из самых богатых и непонятных в мире. По сложности его можно сравнить разве что с китайским и японским, а по богатству даже пример подобрать довольно сложно.

Очень часто наше интуитивное понимание русского языка идет в разрез с формальными нормами и правилами. Но еще больше проблем возникает при попытке заставить машину разобраться во всех стилистических, лингвистических и прочих филологических тонкостях текста, написанного на русском языке.

В этом выпуске мы постараемся рассказать вам о том, как машинное понимание языка отличается от человеческого, и как это отображается на выдаче.

Итак, начнем с математики. В русском языке присутствует и активно используется (в разных областях) около 3 сотен тысяч слов. Каждое третье слово имеет несколько словоформ, которые различаются сразу по нескольким факторам: род, падеж, число и т.д.

Для примера, любое прилагательное может находиться в краткой форме, двух числах, сравнительной и превосходной степени, в трех родах, в семи падежах, быть одушевленным или нет. В результате получается, что каждой прилагательное может иметь около 129 (!) словоформ. То есть, около 100 слов в русском языке имеют хвост из 129 словоформ.

Чтобы сэкономить место (как в бумажном словаре, так и в электронной памяти), слова формируют в морфологические группы. Для примера, слова «могучий» и «великий» имеют одинаковые окончания в одинаковых словоформах.

Витоге, если на вариант с сохранением всех существующих словоформ нужно около 500 Мб памяти, то на сохранение групп уходит только 10Мб. Цифры, вроде, и не такие уж пугающие, но если вспомнить, что морфология Яндекса формировалась лет 10-12 назад, когда закупка такого количества памяти для всех серверов могла влететь в копеечку, становится понятным «особое» отношение машины к словоформам русского языка.

С тех пор правила русского языка не изменились, количество слов не уменьшилось, а скорее даже выросло, но исправлением существующего положения никто так и не занимался, так как изменение морфологии Яндекса повлекло бы за собой целый каскад проблем.

В следующем выпуске мы с вами поговорим о том, как сложившаяся ситуация отображается на поисковых алгоритмах Яндекса, а значит и на ленте выдачи.

Нашли ответ на свой вопрос?
2 823 просмотра
Обсудить
2 минуты на чтение
Поделиться в соц. сетях
Настя Чехова
Маркетолог
11 октября 2012 г. в 18:42
Нашли ошибку в тексте?
  1. Выделите фрагмент с ошибкой
  2. Нажмите Ctrl + Enter
Настя Чехова
Маркетолог
Стаж 5 лет
2 823 просмотра
Обсудить
2 минуты на чтение
Поделиться в соц. сетях
Комьюнити теперь в Телеграм!
Подпишитесь, чтобы следить за новостями заработка в интернете
@livesurf
Раскрутка
Сайтов
Страниц
Видео
Редакция LIVEsurf
Редакция LIVEsurf

LIVEsurf — цифровая платформа для повышения трафика и улучшения поведенческих факторов сайтов. В наших статьях — практические кейсы, рекомендации и данные с реальных проектов. Мы постоянно анализируем тренды digital-маркетинга, чтобы делиться только актуальной и проверенной информацией.

0 комментариев
Подпишитесь на наш Telegram
Получайте по 1 сообщению с главными новостями за день
Пользователи онлайн:
UserUserUserUser
и ещё 16 зарегистрированных и 609 гостей сейчас на LIVEsurf