Google Ranking Algorithm Research представляет TW-BERT

Google анонсировала замечательную структуру ранжирования под названием Term Weighting BERT (TW-BERT), которая улучшает результаты поиска и легко внедряется в существующие системы ранжирования.

Хотя Google не подтвердила, что использует TW-BERT, эта новая структура является прорывом, улучшающим процессы ранжирования по всем направлениям, в том числе в расширении запросов. Его также легко реализовать, что, на мой взгляд, делает его более вероятным для использования.

У TW-BERT много соавторов, среди них Марк Найоркзаслуженный научный сотрудник Google DeepMind и бывший старший директор по исследовательской инженерии в Google Research.

Он является соавтором многих исследовательских работ по темам, связанным с процессами ранжирования и многими другими областями.

Среди статей Марк Найорк указан как соавтор:

  • Об оптимизации показателей Top-K для моделей нейронного ранжирования — 2022 г.
  • Динамические языковые модели для непрерывно развивающегося контента — 2021 г.
  • Переосмысление поиска: из дилетантов сделать экспертов в предметной области — 2021
  • Преобразование признаков для моделей нейронного ранжирования – – 2020
  • Научитесь ранжироваться с помощью BERT в TF-Ranking — 2020
  • Семантическое сопоставление текста для длинных документов — 2019
  • TF-Ranking: масштабируемая библиотека TensorFlow для обучения рангу — 2018 г.
  • LambdaLoss Framework для оптимизации метрик ранжирования — 2018 г.
  • Обучение ранжированию с предвзятостью выбора в личном поиске — 2016 г.

Что такое ТВ-БЕРТ?

TW-BERT — это система ранжирования, которая присваивает баллы (называемые весовыми коэффициентами) словам в поисковом запросе, чтобы более точно определить, какие документы релевантны этому поисковому запросу.

TW-BERT также полезен при расширении запросов.

Расширение запроса — это процесс, который повторяет поисковый запрос или добавляет к нему дополнительные слова (например, добавление слова «рецепт» к запросу «куриный суп») для лучшего соответствия поискового запроса документам.

Добавление точек к запросу помогает определить, о чем идет речь.

TW-BERT объединяет две парадигмы поиска информации

В исследовательской работе обсуждаются два различных метода поиска. Один из них основан на статистике, а другой — на моделях глубокого обучения.

Далее следует обсуждение достоинств и недостатков этих различных методов, и предполагается, что TW-BERT — это способ связать два подхода без каких-либо недостатков.

Они пишут:

«Эти методы поиска на основе статистики обеспечивают эффективный поиск, который масштабируется по мере увеличения размера корпуса и обобщается на новые домены.

Однако термины взвешиваются независимо и не учитывают контекст всего запроса».

Затем исследователи отмечают, что модели глубокого обучения могут определять контекст поисковых запросов.

ЧИТАТЬ   15 примеров удачных рекламных баннеров в хоккейной тематике для вдохновения и увеличения продаж

Это объясняется:

«Для этой проблемы модели глубокого обучения могут выполнять эту контекстуализацию по запросу, чтобы обеспечить лучшее представление для отдельных терминов».

Исследователи предлагают использовать TW-Bert для преодоления разрыва между двумя методами.

Прорыв описан:

«Мы соединяем эти две парадигмы, чтобы определить, какие из них являются наиболее релевантными или нерелевантными поисковыми терминами в запросе…

Затем эти термины могут быть взвешены вверх или вниз, чтобы наша поисковая система могла выдавать более релевантные результаты».

Пример взвешивания условий поиска TW-BERT

В исследовательской работе предлагается пример поискового запроса «кроссовки Nike».

Проще говоря, слова «кроссовки Nike» — это три слова, которые алгоритм ранжирования должен понимать так, как хотел его понять пользователь.

Они объясняют, что выделение «действующей» части запроса покажет нерелевантные результаты поиска, которые содержат бренды, отличные от Nike.

В этом примере важно название бренда Nike, поэтому процесс ранжирования должен требовать, чтобы веб-страницы-кандидаты содержали слово Nike.

Веб-страницы-кандидаты — это страницы, которые учитываются в результатах поиска.

Что делает TW-BERT, так это присваивает оценку (называемую взвешиванием) каждой части поискового запроса, чтобы он имел такой же смысл, как и для человека, который ввел поисковый запрос.

В этом примере слово Nike считается важным, поэтому ему следует присвоить более высокий балл (взвешивание).

Исследователи пишут:

«Поэтому задача состоит в том, чтобы гарантировать, что Nike имеет достаточно высокий вес, но при этом поставлять беговые кроссовки в окончательных результатах».

Затем вторая задача состоит в том, чтобы понять контекст слов «бег» и «обувь», а это означает, что взвешивание должно быть выше, чтобы соединить два слова в предложение «обувь для бега», вместо взвешивания двух слов независимо друг от друга. .

Эта проблема и решение объясняются:

«Другой аспект заключается в том, как использовать более значимые термины n-грамм во время подсчета очков.

В нашем запросе термины «бег» и «обувь» обрабатываются независимо друг от друга, что может в равной степени соответствовать «носки для бега» или «обувь для катания на коньках».

В этом случае мы хотим, чтобы наш ретривер работал на уровне терминов n-грамм, чтобы указать, что «кроссовки» должны быть взвешены при подсчете очков».

Устранение ограничений в текущих фреймворках

В исследовательской статье традиционное взвешивание обобщается как ограниченное вариантами запросов и упоминается, что эти методы взвешивания, основанные на статистике, работают хуже для нулевых сценариев.

ЧИТАТЬ   Индекс качества магазина больше не будет ограничивать продажи на Яндекс Маркете - Новости

Обучение с нулевым выстрелом относится к способности модели решать проблему, для решения которой она не была обучена.

Существует также краткое изложение ограничений, присущих современным методам продления срока.

Расширение термина — это когда синонимы используются для поиска дополнительных ответов на поисковые запросы или когда выводится другое слово.

Например, когда кто-то ищет «куриный суп», предполагается, что это означает «куриный суп». рецепт

О недостатках нынешних методов пишут:

«…эти вспомогательные функции оценки не учитывают дополнительные шаги взвешивания, выполняемые функциями оценки, используемыми в существующих средствах извлечения, такими как статистика запросов, статистика документов и значения гиперпараметров.

Это может изменить исходное распределение назначенных весов терминов во время окончательной оценки и поиска».

Далее исследователи заявляют, что у глубокого обучения есть свой багаж с точки зрения сложности их реализации и непредсказуемого поведения, когда они сталкиваются с новыми областями, для которых они не были предварительно обучены.

Здесь на сцену выходит TW-BERT.

TW-BERT соединяет два подхода

Предлагаемое решение похоже на гибридный подход.

В следующей цитате термин IR означает поиск информации.

Они пишут:

«Чтобы восполнить пробел, мы используем надежность существующих лексических ретриверов с контекстуальными представлениями текста, обеспечиваемыми глубокими моделями.

Лексические ретриверы уже предоставляют возможность назначать веса запросам в терминах n-грамм при выполнении поиска.

На этом этапе конвейера мы используем языковую модель, чтобы присвоить соответствующие веса терминам n-грамм запроса.

Этот BERT со взвешиванием терминов (TW-BERT) оптимизирован сквозным образом с использованием тех же функций оценки, которые используются в конвейере поиска, чтобы обеспечить согласованность между обучением и поиском.

Это приводит к улучшению поиска при использовании весов терминов, созданных TW-BERT, сохраняя при этом инфраструктуру IR в соответствии с ее существующим производственным аналогом».

Алгоритм TW-BERT присваивает веса запросам, чтобы обеспечить более точную оценку релевантности, с которой затем может работать остальная часть процесса ранжирования.

Стандартный лексический поиск

Взвешенный поиск по срокам (TW-BERT)

Диаграмма, показывающая, где TW-BERT вписывается в структуру поиска

TW-BERT прост в реализации

Одним из преимуществ TW-BERT является то, что его можно вставить непосредственно в текущий процесс ранжирования поиска информации в качестве вставного компонента.

«Это позволяет нам напрямую внедрять наши шкалы терминов в систему IR во время поиска.

Это отличается от предыдущих методов взвешивания, которые должны дополнительно корректировать параметры извлекателя для достижения оптимальной производительности поиска, поскольку они оптимизируют веса терминов, полученные с помощью эвристики, а не сквозной оптимизации».

ЧИТАТЬ   Не становитесь жертвой этого тревожного эксплойта Google Chrome — обновите свой браузер прямо сейчас.

Что важно в этой простой реализации, так это то, что она не требует специализированного программного или аппаратного обновления для добавления TW-BERT в процесс алгоритма ранжирования.

Использует ли Google TW-BERT в своем алгоритме ранжирования?

Как упоминалось ранее, TW-BERT относительно прост в реализации.

На мой взгляд, будет справедливо предположить, что простота реализации увеличивает шансы добавления этого фреймворка в алгоритм Google.

Это означает, что Google может добавить TW-BERT в ранжирующую часть алгоритма без необходимости выполнять полномасштабное обновление основного алгоритма.

Помимо простоты реализации, еще одно качество, на которое следует обращать внимание при догадках о том, можно ли использовать алгоритм, — это насколько успешно алгоритм улучшает текущее состояние дел.

Есть много исследовательских работ, которые имеют лишь ограниченный успех или не имеют никакого улучшения. Эти алгоритмы интересны, но справедливо предположить, что они не войдут в алгоритм Google.

Интерес представляют те, которые очень успешны, и это случай с TW-BERT.

TW-BERT очень успешен. Они сказали, что его легко добавить в существующий алгоритм ранжирования, и что он работает так же хорошо, как «плотное нейронное ранжирование».

Исследователи объяснили, как это улучшает существующие системы ранжирования:

«Используя эти структуры извлечения, мы показываем, что наш метод взвешивания терминов превосходит базовые стратегии взвешивания терминов для задач в предметной области.

В задачах вне предметной области TW-BERT улучшает стратегии взвешивания по сравнению с базовым уровнем, а также с плотными нейронными ранжировщиками.

Мы также демонстрируем полезность нашей модели, интегрируя ее с существующими моделями расширения запросов, повышая производительность по сравнению со стандартным поиском и плотным поиском в случаях нулевого выстрела.

Это мотивирует нас к тому, что наша работа может улучшить существующие поисковые системы с минимальными трудностями при адаптации».

Итак, это две веские причины, по которым TW-BERT уже может быть частью алгоритма ранжирования Google.

  1. Это общее улучшение существующей системы ранжирования.
  2. Это легко реализовать

Если Google внедрил TW-BERT, то это могло бы объяснить колебания рейтинга, о которых инструменты мониторинга SEO и члены сообщества поискового маркетинга сообщали за последний месяц.

Как правило, Google объявляет только о некоторых изменениях местоположения, особенно когда они вызывают заметный эффект, например, когда Google объявил об алгоритме BERT.

В отсутствие официального подтверждения мы можем только предполагать, что TW-BERT является частью алгоритма поискового ранжирования Google.

Тем не менее, TW-BERT — замечательная структура, которая, кажется, повышает точность систем поиска информации и может быть использована Google.

Прочитайте оригинальную статью исследования:

Сквозное взвешивание условий запроса (PDF)

Веб-страница исследования Google:

Взвешивание терминов сквозного запроса

Избранное изображение Shutterstock/TPYXA Illustration



Source