Google DeepMind RecurrentGemma превосходит модели-трансформеры

Google DeepMind опубликовал исследовательскую работу, в которой предлагается языковая модель под названием RecurrentGemma, которая может соответствовать или превосходить производительность моделей на основе преобразователей, при этом обеспечивая более эффективное использование памяти, что обещает отличную производительность языковой модели в средах с ограниченными ресурсами.

В исследовательской работе представлен краткий обзор:

«Представляем RecurrentGemma, открытую языковую модель, использующую новую архитектуру Griffin от Google. Griffin сочетает в себе линейную рекуррентность с локальным пониманием для достижения превосходной производительности в языках. Он имеет состояние фиксированного размера, что уменьшает использование памяти и обеспечивает эффективный вывод по длинным последовательностям. Мы Обе модели достигают производительности, сравнимой с Gemma-2B, несмотря на то, что обучаются на меньшем количестве токенов».

Связь с Джеммой

Gemma — это открытая модель, в которой используется передовая технология Google Gemini, но она легкая и может работать на ноутбуках и мобильных устройствах. Подобно Gemma, RecurrentGemma также может работать в средах с ограниченными ресурсами. Другие сходства между Gemma и RecurrentGemma заключаются в данных обучения, настройке инструкций и RLHF (подкрепляемом обучении на основе обратной связи с человеком). RLHF — это способ использования обратной связи с людьми для обучения самообучающейся модели генеративного ИИ.

Архитектура Грифона

Новая модель основана на гибридной модели Griffin, анонсированной несколько месяцев назад. Модель Griffin называется «гибридной», поскольку она использует два типа технологий: одна позволяет эффективно обрабатывать длинные последовательности информации, а другая позволяет сосредоточиться на самых последних частях входных данных, давая возможность обрабатывать « значительно больше данных (увеличенная пропускная способность) за то же время, что и модели на основе трансформатора, а также сокращается время ожидания (задержка).

ЧИТАТЬ   Google критикует недостатки безопасности Microsoft и предлагает скидки на программное обеспечение для переманивания клиентов

В исследовательской работе Гриффина были предложены две модели: одна под названием «Ястреб», а другая — «Гриффин». В исследовательской работе Гриффина объясняется, почему это прорыв:

«…мы эмпирически подтверждаем преимущества Хоука и Гриффина во времени вывода и наблюдаем снижение задержки и значительное увеличение пропускной способности по сравнению с нашими базовыми моделями Трансформера. Наконец, Хоук и Гриффин демонстрируют способность экстраполировать более длинные последовательности, чем они были обучены, и это способны эффективно учиться воспроизводить и извлекать данные в долгосрочной перспективе. Эти результаты убедительно свидетельствуют о том, что предлагаемые нами модели предлагают мощную и эффективную альтернативу Трансформерам, привлекающую глобальное внимание».

Разница между Griffin и RecurrentGemma заключается в модификации, связанной с тем, как модель обрабатывает входные данные (входные внедрения).

Прорвать

В исследовательской статье говорится, что RecurrentGemma обеспечивает аналогичную или лучшую производительность, чем более традиционная модель преобразователя Gemma-2b (которая была обучена на 3 триллионах токенов против 2 триллионов у RecurrentGemma). Это одна из причин, по которой исследовательская работа называется «Оставляя позади модели трансформаторов», поскольку она показывает способ достижения более высокой производительности без больших затрат ресурсов на архитектуру трансформатора.

Еще одним преимуществом по сравнению с моделями-трансформерами является снижение потребления памяти и более быстрое время обработки. В исследовательской работе объясняется:

«Ключевым преимуществом RecurrentGemma является то, что он имеет значительно меньший размер состояния, чем преобразователи в длинных последовательностях. Хотя KV-кэш Gemma растет пропорционально длине последовательности, состояние RecurrentGemma ограничено и не увеличивается на последовательностях, длина которых превышает размер локального окна внимания, равный 2 КБ. В результате, хотя самая длинная выборка, которую может сгенерировать авторегрессионный метод Gemma, ограничена доступной памятью на хосте, RecurrentGemma может генерировать последовательности произвольной длины».

RecurrentGemma также превосходит модель преобразователя Gemma по пропускной способности (количество данных, которые можно обработать, чем больше, тем лучше). Пропускная способность модели-трансформера страдает от большей длины последовательности (увеличение количества токенов или слов), но это не относится к RecurrentGemma, которая способна поддерживать высокую пропускную способность.

ЧИТАТЬ   Все оружие в Payday 3 и как его разблокировать | Цифровые тенденции

В исследовательской работе показано:

«На рисунке 1a мы отображаем пропускную способность, достигаемую путем выборки из запроса из 2 тысяч токенов для диапазона длин генерации. Пропускная способность рассчитывает максимальное количество токенов, которые мы можем выбирать в секунду на одном устройстве TPUv5e.

…RecurrentGemma обеспечивает более высокую пропускную способность при всех рассматриваемых длинах последовательностей. Пропускная способность, достигаемая RecurrentGemma, не уменьшается по мере увеличения длины последовательности, тогда как пропускная способность, достигаемая Gemma, уменьшается по мере роста кэша».

Ограничения повторяющейся геммы

Исследование показывает, что этот подход имеет свое ограничение: производительность отстает от традиционных моделей трансформаторов.

Исследователи подчеркивают ограничение в обработке очень длинных последовательностей, с чем способны справиться модели-трансформеры.

По данным газеты:

«Хотя модели RecurrentGemma очень эффективны для более коротких последовательностей, их производительность может отставать от традиционных моделей-трансформеров, таких как Gemma-2B, при обработке чрезвычайно длинных последовательностей, которые превышают локальное окно внимания».

Что это значит для реального мира

Значение этого подхода к языковым моделям заключается в том, что он предполагает наличие других способов улучшить производительность языковых моделей при использовании меньшего количества вычислительных ресурсов в архитектуре модели без преобразователя. Это также показывает, что модель без преобразователя может преодолеть одно из ограничений размеров кэша модели преобразователя, которое имеет тенденцию увеличивать использование памяти.

В ближайшем будущем это может привести к применению языковых моделей, которые смогут работать в средах с ограниченными ресурсами.

Прочтите исследовательскую работу Google DeepMind:

RecurrentGemma: отказ от преобразователей для создания эффективных моделей открытого языка (PDF)

Рекомендованное изображение: Shutterstock/Photo For Everything

Source