Что такое AI-токен? | Цифровые тенденции

Google

Google недавно объявил, что Gemini 1.5 Pro увеличит контекстное окно с 1 миллионом токенов до 2 миллионов. Звучит впечатляюще, но что вообще такое символ?

По сути, даже чат-ботам нужна помощь в обработке получаемого текста, чтобы они могли понимать концепции и общаться с вами, как люди. Это достигается с помощью системы токенов в генеративном пространстве ИИ, которая разбивает данные так, чтобы их было легче усваивать моделями ИИ.

Что такое AI-токен?

Инфографика, освещающая функцию контекстного окна Gemini длиной в 1 миллион токенов.
Google

Токен AI — это наименьшая единица, на которую может быть разбито слово или предложение при обработке большой языковой моделью (LLM). Токены обозначают слова, знаки препинания или подслова, которые позволяют моделям эффективно анализировать и интерпретировать текст, а затем генерировать контент аналогичным образом на основе сущностей. Это похоже на то, как компьютер преобразует данные в нули и единицы Юникода для упрощения обработки. Токены позволяют модели определять шаблон или взаимосвязь в словах и фразах, чтобы они могли прогнозировать будущие термины и отвечать на ваши запросы.

Когда вы вводите подсказку, предложение и слова слишком длинные, чтобы чат-бот мог интерпретировать их как есть — их необходимо разбить на более мелкие части, прежде чем LLM сможет хотя бы обработать запрос. Они конвертируются в токены, после чего запрос отправляется и анализируется, и вам возвращается ответ.

Процесс преобразования текста в токены называется токенизацией. Есть много методы токенизации, который может различаться в зависимости от вариантов, включая словарные инструкции, словосочетания, языки и т. д. Например, метод токенизации на основе пробелов разделяет слова на основе пробелов между ними. Фразу «На улице идет дождь» можно было бы разделить на символы «Идет», «Дождь», «Снаружи».

ЧИТАТЬ   «Оставленные» — следующая большая классика рождественского кино. Вот почему вам стоит это увидеть | Цифровые тенденции

Как работают токены AI?

Что общее преобразование токенов деление, сопровождаемое в генеративном пространстве AI, указывает на то, что токен соответствует примерно четырем символам английского языка — или 3/4 слова — а 100 токенов равны примерно 75 словам. Другие преобразования предполагают, что одно-два предложения равны примерно 30 токенам, абзац — примерно 100 токенам, а 1500 слов — примерно 2048 токенам.

Независимо от того, являетесь ли вы обычным пользователем, разработчиком или предприятием, используемая вами программа искусственного интеллекта использует токены для выполнения своих задач. Когда вы начинаете платить за услуги генеративного ИИ, вы платите за токены, чтобы поддерживать сервис на оптимальном уровне.

У большинства брендов генеративного ИИ также есть основные правила работы токенов в их моделях ИИ. Многие компании имеют ограничения на количество токенов, которые ограничивают количество токенов, которые могут быть обработаны за один раунд. Если запрос превышает лимит токенов в LLM, инструмент не сможет выполнить запрос за один проход. Например, если вы введете для перевода в GPT статью объемом 10 000 слов с лимитом в 4 096 токенов, то он не сможет полностью обработать ее для выдачи развернутого ответа, потому что для такого запроса потребуется не менее 15 000 токенов.

Однако компании быстро расширили возможности своих LLM и добавили ограничение токенов в новых версиях. Модель BERT, основанная на исследованиях Google, имела максимальную входную длину 512 токенов. LLM OpenAI GPT-3.5, на котором работает бесплатная версия ChatGPT, имеет максимум 4096 входных токенов, а его LLM GPT-4, на котором работает платная версия ChatGPT, имеет максимум 32 768 входных токенов.

Это соответствует примерно 64 000 слов или 50 страницам текста. Gemini 1.5 Pro от Google, который обеспечивает аудиофункциональность для AI Studio бренда, имеет стандартное контекстное окно на 128 000 токенов. В Claude 2.1 LLM установлено ограничение до 200 000 токенов контекста. Это соответствует примерно 150 000 слов или 500 страницам текста.

ЧИТАТЬ   NYT Strands: ответы на субботу, 6 апреля | Цифровые тенденции

Каковы различные типы токенов AI?

Есть несколько типов жетонов используется в области генеративного искусственного интеллекта, позволяя LLM идентифицировать мельчайшие объекты, доступные для анализа. Вот некоторые из основных токенов, представляющих интерес для модели ИИ.

  • Токены слов — это слова, которые сами по себе представляют отдельные объекты, например «птица», «дом» или «телевидение».
  • Токены подслов — это слова, которые можно сократить на более мелкие единицы, например, разделить вторник на «вторник» и «день».
  • Знаки препинания заменяйте знаки препинания, включая запятые (,), точки (.) и другие.
  • Числовые жетоны заменять цифровые числа, в том числе цифру «10».
    Специальные токены могут записывать несколько уникальных инструкций в данных выполнения запроса и обучения.

Каковы преимущества токенов?

Есть несколько преимуществ токенов в сфере генеративного ИИ. В первую очередь они действуют как связующее звено между человеческим языком и компьютерным языком при работе с LLM и другими процессами ИИ. Токены помогают моделям обрабатывать большие объемы данных одновременно, что особенно полезно для компаний, использующих LLM. Компании могут работать с лимитами токенов, чтобы оптимизировать производительность моделей ИИ. По мере появления будущих версий LLM токены позволят моделям иметь больший объем памяти за счет более высоких границ или контекстных окон.

Другие преимущества токенов заключаются в аспектах обучения LLM. Поскольку это небольшие устройства, их можно использовать для оптимизации скорости обработки данных. Благодаря прогнозирующему характеру токенов они лучше понимают концепции и со временем улучшают последовательности. Токены помогают реализовать мультимодальные аспекты, такие как изображения, видео и аудио, в LLM, а также чат-боты с преобразованием текста в речь.

Токены также имеют некоторые безопасность данных и экономичные преимущества благодаря настройке Unicode, которая защищает важные данные и усекает более длинный текст до упрощенной версии.

ЧИТАТЬ   X, ранее известный как Twitter, похоже, будет доступен только по подписке | Цифровые тенденции

Рекомендации редактора




Source