Brave анонсирует поисковую систему с искусственным интеллектом

Brave анонсировала свою новую поисковую систему с искусственным интеллектом, ориентированную на конфиденциальность, под названием Answer with AI, которая работает с собственным поисковым индексом на миллиардах веб-сайтов. Их текущая поисковая система уже обслуживает 10 миллиардов поисковых запросов в год, а это означает, что поисковая система Brave на базе искусственного интеллекта теперь является одной из крупнейших поисковых систем с искусственным интеллектом в Интернете.

Многие представители сообществ поискового маркетинга и электронной коммерции выразили беспокойство по поводу будущего Интернета из-за поисковых систем с искусственным интеллектом. Поисковая система Brave с искусственным интеллектом по-прежнему показывает ссылки и, что наиболее важно, по умолчанию не отвечает на коммерческие или транзакционные запросы с помощью искусственного интеллекта, что должно быть хорошей новостью для SEO-специалистов и онлайн-бизнеса. Brave ценит веб-экосистему и будет отслеживать структуру посещений веб-сайтов.

Search Engine Journal поговорил с Жозепом М. Пухолем, руководителем отдела поиска в Brave, который ответил на вопросы о поисковом индексе, о том, как он работает с искусственным интеллектом, и, самое главное, поделился тем, что нужно знать оптимизаторам и владельцам бизнеса, чтобы улучшить места размещения.

Ответы с ИИ на базе Brave

В отличие от других поисковых решений на основе искусственного интеллекта, поисковая система Brave с искусственным интеллектом полностью работает на основе собственного поискового индекса сканируемых и ранжируемых веб-сайтов. Вся базовая технология, от поискового индекса до больших языковых моделей (LLM) и даже технологии поискового расширенного поколения (RAG), разработана Brave. Это особенно хорошо с точки зрения конфиденциальности, а также делает результаты поиска Brave уникальными, еще больше отличая их от других альтернативных поисковых систем.

Технология поиска

Сама поисковая система полностью сделана собственными силами. По словам Хосепа М. Пужоля, начальника отдела поиска Brave:

«У нас есть запросный доступ ко всем нашим индексам, более 20 миллиардов страниц, что означает, что мы извлекаем произвольную информацию в режиме реального времени (схемы, таблицы, выдержки, описания и т. д.). Мы также очень подробно рассказываем о том, какие данные использовать, от целых абзацев или текстов на странице до отдельных предложений или строк в таблице.

Поскольку в нашем распоряжении целая поисковая система, основное внимание уделяется не поиску, а отбору и ранжированию. Кроме того, для страниц в нашем индексе у нас есть доступ к той же информации, которая используется для ранжирования, например, результаты, популярность и т. д. Это очень важно, чтобы помочь выбрать, какие источники более релевантны».

Поисковая дополненная генерация (RAG)

Поисковая система работает так: она имеет поисковый индекс и большие языковые модели, а также технологию расширенного поиска (RAG), которая сохраняет ответы свежими и основанными на фактах. Я спросил о RAG, и Хосеп подтвердил, что именно так это и работает.

ЧИТАТЬ   Секреты создания эффективного рекламного пивного баннера: как привлечь внимание потребителей

Он ответил:

«Вы правы в том, что наша новая функция использует RAG. Фактически, мы уже использовали этот метод в нашей предыдущей функции Summarizer, выпущенной в марте 2023 года. Но в этой новой функции мы расширяем как количество, так и качество этих данных, которые используются в содержание подсказки».

Основные используемые языковые модели

Я спросил о языковых моделях, используемых в новой поисковой системе ИИ, и о том, как они реализованы.

«Модели развертываются на экземплярах AWS p4 с помощью VLLM.

В качестве основной модели LLM мы используем комбинацию Mixtral 8x7B и Mistral 7B.

Однако мы также запускаем несколько специально обученных моделей-трансформеров для вспомогательных задач, таких как семантическое сопоставление и ответы на вопросы. Эти модели намного меньше по размеру из-за строгих требований к задержке (10-20 мс).

Эти вспомогательные задачи важны для нашей функции, поскольку именно они выполняют выбор данных, которые в конечном итоге попадают в финальное приглашение LLM; эти данные могут представлять собой зависящие от запроса фрагменты текста, схемы, табличные данные или внутренние структурированные данные, полученные из наших расширенных фрагментов. Речь идет не о возможности получения большого количества данных, а о выборе кандидатов для добавления в контекст подсказки.

Например, запрос «президенты Франции по партиям» обрабатывает 220 КБ необработанных данных, включая 462 строки, выбранные из 47 таблиц, 7 схем. Размер приглашения составляет около 6500 токенов, а окончательный ответ — всего 876 байт.

Короче говоря, можно сказать, что с помощью «Ответить с помощью ИИ» мы переходим от 20 миллиардов страниц к нескольким тысячам токенов».

Как ИИ работает с результатами локального поиска

Затем я спросил о том, как новая поисковая система будет отображать локальный поиск. Я спросил Жозепа, может ли он поделиться некоторыми сценариями и примерами запросов, в которых система ответов ИИ будет показывать местные предприятия. Например, если я запрошу лучшие гамбургеры в Сан-Франциско, предоставит ли система ответов AI ответ на этот вопрос и ссылки на него? Будет ли это полезно для людей, планирующих деловые поездки или поездки на отдых?

ЧИТАТЬ   Мошенники взламывают Google Forms и используют поддельный чат-бот с искусственным интеллектом для кражи денег

Хосеп ответил:

«Индекс Brave Search содержит более 1 миллиарда схем на основе местоположения, из которых мы можем извлечь более 100 миллионов компаний и других точек интереса.

Ответ с помощью ИИ — это общий термин для поиска + LLM + нескольких специализированных моделей и сервисов машинного обучения для поиска, ранжирования, очистки, объединения и представления информации. Мы упоминаем об этом, потому что LLM не принимают все решения. Сейчас мы используем их преимущественно для синтеза неструктурированной и структурированной информации, что происходит как в автономном режиме, так и во время запроса.

Иногда конечный результат кажется очень похожим на LLM (это тот случай, когда мы думаем, что ответ на вопрос пользователя представляет собой единственный интересующий вопрос, например, «проверить кухню фарао»), а иногда их работа более тонкая (например, «лучшие гамбургеры»). «) sf»), создайте описание бизнеса по различным веб-ссылкам или объедините категорию бизнеса в единую таксономию».

Советы по хорошему размещению

Затем я спросил, помогло ли использование структурированных данных Schema.org повысить рейтинг сайта в Brave и есть ли у него какие-либо другие советы по SEO и онлайн-бизнесу.

Он ответил:

«Мы обязательно обращаем внимание на структурированные данные с сайта Schema.org при построении контекста для приглашения LLM. Лучше всего иметь структурированные данные о своей компании (стандартные схемы с сайта Schema.org). Чем полнее эти схемы, тем точнее будет ответ.

При этом наш ответ с ИИ сможет показать данные о компании и не в этих формах, но всегда желательно повторять информацию в разных форматах.

Некоторые компании полагаются только на агрегаторы (Yelp, Tripadvisor, Желтые страницы) для получения своей бизнес-информации. Добавление схем на корпоративный веб-сайт имеет свои преимущества, даже если это просто сканирование ботов».

Планы по поиску ИИ в смелом браузере

Brave поделился, что в какой-то момент в ближайшем будущем они интегрируют новую функцию поиска AI непосредственно в браузер Brave.

ЧИТАТЬ   Секреты создания привлекательного наружного рекламного баннера: лучшие практики и советы

Хосеп объяснил:

«Мы планируем очень скоро интегрировать механизм ответов AI с Brave Leo (помощником AI, встроенным в браузер Brave). Пользователи будут иметь возможность отправить ответ Leo и продолжить сеанс там».

Другие факты

В объявлении Brave также были представлены следующие факты о новой поисковой системе:

«Генераторный ответ Brave Search — это не просто текст. Глубокая интеграция между индексом и моделью позволяет нам комбинировать онлайновое контекстное обогащение именованных сущностей (процесс, который добавляет больше контекста к человеку, месту или предмету) по мере генерации ответа. Это означает, что в ответах генеративный текст сочетается с другими типами носителей, включая информационные карточки и изображения.

Система ответов Brave Search может даже объединять данные из индекса и географические местные результаты, чтобы предоставить обширную информацию о достопримечательностях. На сегодняшний день индекс Brave Search содержит более 1 миллиарда схем на основе местоположения, из которых мы можем извлечь более 100 миллионов предприятий и других объектов интереса. Эти записи — больше, чем любой общедоступный набор данных — означают, что система ответов может предоставить подробные и немедленные результаты для достопримечательностей по всему миру».

Прочтите официальное объявление:

Brave представляет новую систему ответов AI, ориентированную на конфиденциальность, которая обрабатывает почти 10 миллиардов запросов в год

Попробуйте новый поиск AI на

Source