* РБК — новости

* *

Rankbrain и SEO: объяснение "встраивания слов" ...

  1. От измерения текстового сходства к семантическому сходству
  2. Понятие "вложения слов"
  3. Вклад искусственного интеллекта
  4. Rankbrain: ИИ в расчете, остальное классика
  5. Вложения слов: область исследований SF Labs

Google, в соответствии с информацией, опубликованной в Статья Bloomberg в октябре 2015 года начал развертывание Rankbrain в начале 2015 года. Прошло два года с тех пор, как Google начал выпускать инструмент, использующий последние достижения в области искусственного интеллекта. Но ИИ - это обширная область исследований, не очень хорошо известная большинству экспертов по SEO, и это заставляет их сильно фантазировать. В результате, после того, как Грег Серрадо объявил о существовании Ранкбрейна, было много неточных записей об этом инструменте, его роли в алгоритме и его важности.

Чтобы полностью объяснить все, что мы знаем и не знаем о Ранкбрейне, потребуется очень длинная статья. Но большинство заблуждений SEO-экспертов происходит из-за того, что они не знают метода, лежащего в основе этого элемента алгоритма: «вложения слов» ...

От измерения текстового сходства к семантическому сходству

В алгоритме поисковой системы нам нужен инструмент для вычисления заметки «сходства» между двумя документами (на практике: между коротким документом, составленным запросом, и более длинным документом: веб-страница, подлежащая классификации ). Эта заметка имеет стратегическое значение для создания релевантного рейтинга, но она используется в сочетании с очень большим количеством других сигналов, довольно значительных (например, популярность страницы) или второстепенных (например, наличие ключевого слова в URL страницы).

В 90-х годах для вычисления этого текстового сходства чаще всего использовался «Cosinus de Salton». В этом подходе векторы координат были назначены документам на основе веса, назначенного каждому члену документа. Координаты задают позицию в пространстве с таким количеством измерений, сколько терминов в документе. И чтобы увидеть, были ли два документа близки или нет, этого было достаточно, чтобы вычислить угловое расстояние между двумя векторами благодаря знаменитому «Козинусу Солтону».

Несмотря на всю трудоемкость метода, из-за размера обрабатываемых матриц, он широко использовался, потому что компьютеры очень хорошо выполняют операции над матрицами или векторами, даже при значительном размере
Несмотря на всю трудоемкость метода, из-за размера обрабатываемых матриц, он широко использовался, потому что компьютеры очень хорошо выполняют операции над матрицами или векторами, даже при значительном размере. Он был найден в различных движках, таких как Altavista или совсем недавно в Lucene SolR, и аналогичный метод использовался в ранней версии Google.

С другой стороны, у этого подхода был большой недостаток: он измеряет текстовое сходство, но не учитывает значение терминов. Тем не менее, с распространением запросов на естественном языке становится важным продолжать получать соответствующие ответы, чтобы полностью понять смысл запросов, а также понять, какой контент веб-страницы возвращает наиболее отношение.

Короче говоря, нам нужен инструмент расчета сходства документов, который учитывает значение терминов.

Понятие "вложения слов"

Первые теоретические описания инструментов для вычисления семантических отношений между терминами датируются 1960-ми годами. Идея состояла в том, чтобы статистически проанализировать контексты, в которых появились термины.

Первые подходы заключались в использовании инструментов анализа типа анализа основных компонентов. Что дали в 1988 году метод "LSA / LSI", вновь открытый в 2005/2006 годах по ссылкам (но плохо понятый в то время, за некоторыми исключениями) и позже метод LDA.

Проблема этих методов заключалась в их недостаточной масштабируемости (невозможно применять их в больших масштабах), а также в том, что природу обнаруженных семантических отношений было трудно определить и, следовательно, использовать на практике. Поэтому на протяжении десятков лет вычисление «семантического» сходства сталкивалось с проблемами метода расчета.

Вклад искусственного интеллекта

В 2005/2006 годах исследователи (особенно в Google) осознавали, что достижения в области искусственного интеллекта дали им новые инструменты для решения проблемы контекстного анализа. Идея состояла в том, чтобы применить вычислительные методы, основанные на нейронных сетях, и использовать так называемый подход «вложение слов» в эту проблему. Это исследование дало Word2vec, метод для вычисления координат термина в семантическом векторном пространстве, изобретенный Томасом Миколовым из Google.

Результаты были блефом. И приложения умножаются во многих областях:

  • автоматический перевод
  • анализ чувств
  • распознавание речи и автоматическая обработка языка
  • и, конечно же, инструменты поиска (=> Rankbrain)

Rankbrain: ИИ в расчете, остальное классика

С таким методом, как вложение слов, термины и документы связаны с векторами. И семантическое сходство также рассчитывается с использованием метода Косинуса. Короче говоря, результаты этого нового и сложного подхода могут быть использованы с известными методами для людей, которые создают алгоритмы поисковых систем.

Заменит ли Ранбрейн традиционный алгоритм: совсем нет. Он заканчивает это. Он используется для улучшения понимания запроса и терминов, используемых в запросе. И для повышения актуальности сообщаемых результатов.

Для большинства запросов достаточно текстовых расчетов сходства и традиционных сигналов (включая знаменитый «Pagerank») для получения релевантных результатов. Но по некоторым неоднозначным запросам, и / или сформулированным на естественном языке, информация, взятая из «вложения слов», важна для отслеживания наиболее релевантных страниц.

Применение слова emebddings: угадать семантически близкое слово. Если я вычту из вектора для «мужчины» вектор для «короля» и добавлю вектор для «женщины», я найду координаты слова, связанного с женщиной для короля: королева

Вложения слов: область исследований SF Labs

В Search Foresight мы рассматриваем «встраивание слов» как начало революции, которая кардинально изменит способ работы поисковых инструментов в ближайшие годы, а также методы оптимизации для поисковых систем. Поэтому наша команда SF Labs изучала эти инструменты и основные концепции в течение 2016 года. И мы планируем выпустить первые конкретные приложения для ваших сайтов в 2017 году. Так что следите за обновлениями, мы скоро поговорим об этом на этот блог

Чтобы узнать больше:

Реклама

Популярные новости


Реклама

Календарь новостей

Реклама

Архив новостей

Реклама