Компания Google обнародовала научную статью, в которой заявляет о разработке нового алгоритма – SMITH. Google отмечает, что созданный алгоритм превосходит предыдущий в том, что относится к документам и длинным запросам.
SMITH – это новый алгоритм, главная особенность которого заключается в том, что он пытается понять документ целиком. Прежний алгоритм BERT понимает только слова в контексте предложений, в отличие от SMITH, который заточен на понимание фрагментов текста в контексте всего документа.
SMITH может работать с фрагментами в документах так же, как это делает BERT со словами и предложениями.
Разработчики обучают новый алгоритм предсказывать следующий блок предложений. Отмечается, что благодаря такому обучению SMITH будет заметно лучше взаимодействовать с большими документами, чем это делает алгоритм BERT. В то время BERT работает по иной технологии.
Надо отметить, что Google официально зачастую не говорит о том, какие алгоритмы использует. После появление этой новости, появились предположения, что Google уже работает с новым алгоритмом. Это вызывает различные домыслы. Ведь неизвестно, как введение алгоритмов повлияет (и повлияет ли вообще) на вебмастеров, использующих особые виды SEO-продвижения и которые задают вопросы вроде, как накрутить переходы по ссылке и т.п.
Однако чуть позднее сотрудник корпорации Дэнни Салливан опроверг слухи заявлением, что Google пока что не использует новый алгоритм в своей работе. Салливан написал об этом в своем твиттере.
В статье, опубликованной Google прямо утверждается о преимуществах SMITH над другими алгоритмами. В ходе тестирования было выяснено, что SMITH обладает большей длинной входного текста. В статье говорится, что новый алгоритм является самым оптимальным решением для анализа длинных документов.