Разъяснение утечки данных Google

Во время праздников в США было опубликовано несколько сообщений о предполагаемой утечке данных, связанных с рейтингом Google. Первоначальные сообщения об утечке были сосредоточены на «подтверждении» убеждений, которых давно придерживался Рэнд Фишкин, но мало внимания уделялось контексту информации и тому, что она на самом деле означает.

Контекст имеет значение: хранилище документов AI

Утечка документа имеет отношение к публичной платформе Google Cloud под названием Document AI Warehouse, которая используется для анализа, организации, поиска и хранения данных. Эта общедоступная запись является названием Обзор хранилища документов AI. ОДИН почта на Facebook сообщает, что «утечка» данных является «внутренней версией» общедоступной документации Document AI Warehouse. Таков контекст этих данных.

Снимок экрана: Хранилище документов AI

@DavidGQuaid написал в Твиттере:

«Думаю, понятно, что это внешний API для создания репозитория документов, как следует из названия»

Похоже, это бросает холодную воду в отношении идеи о том, что «утечка» данных представляет собой внутреннюю информацию поиска Google.

Насколько нам известно на данный момент, «утечка данных» имеет сходство с тем, что находится на общедоступной странице Document AI Warehouse.

Утечка данных внутреннего поиска?

Оригинал почта на SparkToro не сказано, что данные берутся из поиска Google. В нем говорится, что это заявление сделал человек, отправивший данные Рэнду Фишкину.

Одна из вещей, которые меня восхищают в Рэнде Фишкине, это то, что он очень точен в своих статьях, особенно когда дело касается предостережений. Рэнд правильно отмечает, что именно человек, предоставивший данные, утверждает, что данные получены из Google Search. Доказательств нет, только обвинение.

Он написал:

«Я получил электронное письмо от кого-то, утверждающего, что у него есть доступ к массовой утечке документации API из поискового подразделения Google».

Сам Фишкин не подтверждает, что предыдущие гуглеры подтвердили, что данные происходят из Google Search. Он пишет, что такое заявление сделал человек, отправивший данные по электронной почте.

«В электронном письме также утверждалось, что подлинность этих просочившихся документов была проверена бывшими сотрудниками Google и что эти бывшие сотрудники и другие поделились дополнительной частной информацией о поисковых операциях Google».

Фишкин пишет о последующей видеовстрече, на которой информатор рассказал, что его контакт с бывшими сотрудниками Google был связан с встречей с ними на мероприятии в поисковой индустрии. Опять же, нам придется поверить на слово информаторам о бывших сотрудниках Google, и то, что они сказали, было сделано после тщательного анализа данных, а не случайного комментария.

ЧИТАТЬ   16-ядерная рабочая станция от малоизвестного китайского поставщика — самый быстрый мини-ПК на сегодняшний день — ориентированный на игры AtomMan GT Pt уничтожает все в этой категории, поддерживает PCIe 5.0 и до 96 ГБ DDR

Фишкин пишет, что связался по этому поводу с тремя бывшими сотрудниками Google. Примечательно, что бывшие сотрудники Google не подтвердили явно, что данные являются внутренними для Google Search. Они только подтвердили, что данные похожи на внутреннюю информацию Google, а не на то, что они получены из поиска Google.

Фишкин пишет то, что ему рассказали бывшие гуглеры:

  • «Когда я там работал, у меня не было доступа к этому коду. Но это выглядит вполне законно».
  • «Он имеет все признаки внутреннего API Google».
  • «Это API на основе Java. И кто-то потратил много времени на то, чтобы соответствовать собственным внутренним стандартам Google в отношении документации и именования».
  • «Мне нужно больше времени, чтобы убедиться, но это соответствует внутренней документации, с которой я знаком».
  • «Ничто из того, что я увидел в кратком обзоре, не указывает на то, что это что-то кроме законного».

Сказать, что что-то получено из Google Поиска, и сказать, что оно получено из Google, — это две разные вещи.

Сохраняйте непредвзятость

Важно сохранять непредвзятость в отношении данных, поскольку многое в них не подтверждено. Например, неизвестно, является ли это внутренним документом поисковой группы. Поэтому, вероятно, не стоит воспринимать что-либо из этих данных как действенный совет по SEO.

Нецелесообразно также анализировать данные для конкретного подтверждения давних убеждений. Вот как вы попадаете в ловушку предвзятости подтверждения.

ОДИН определение предвзятости подтверждения:

«Предвзятость подтверждения — это тенденция искать, интерпретировать, отдавать предпочтение и вспоминать информацию таким образом, чтобы подтвердить или поддержать свои предыдущие убеждения или ценности».

Предвзятость подтверждения заставляет человека отрицать то, что эмпирически верно. Например, существует давняя идея, согласно которой Google автоматически предотвращает ранжирование нового сайта, — теория, называемая «песочницей». Люди каждый день сообщают, что их новые сайты и новые страницы почти сразу же попадают в первую десятку результатов поиска Google.

ЧИТАТЬ   Mint Mobile обнаружил еще одну серьезную утечку данных

Но если вы твердо верите в песочницу, то реальный наблюдаемый опыт, подобный этому, будет отброшен, независимо от того, сколько людей наблюдают противоположный опыт.

Бренда Мэлоун, старший внештатный технический стратег SEO и веб-разработчик (профиль в LinkedIn)отправил мне сообщение об обвинениях в отношении Sandbox:

«Я лично знаю, из реального опыта, что теория «песочницы» неверна. Я только что за два дня проиндексировал личный блог с двумя постами. Не существует возможности, чтобы небольшой сайт с двумя постами был проиндексирован в соответствии с теорией «песочницы».

Вывод здесь заключается в том, что если доказательства получены из поиска Google, неправильный способ анализа данных — искать подтверждение давних убеждений.

Что такое утечка данных Google?

Есть пять вещей, которые следует учитывать в отношении утечки данных:

  1. Контекст утечки информации неизвестен. Связано ли это с поиском Google? Это для других целей?
  2. Цель данных. Была ли информация использована для фактических результатов поиска? Или он использовался для внутреннего управления данными или манипулирования ими?
  3. Бывшие сотрудники Google не подтвердили, что данные относятся именно к поиску Google. Они только подтвердили, что это похоже от Google.
  4. Сохраняйте непредвзятость. Если вы ищете подтверждения давних убеждений, угадайте, что? Вы найдете их повсюду. Это называется предвзятостью подтверждения.
  5. Имеющиеся данные свидетельствуют о том, что данные связаны с внешним API для создания хранилища документов.

Что другие говорят об «утекших» документах

Райан Джонс, человек, который не только имеет глубокий опыт в области SEO, но и обладает потрясающими знаниями в области информатики, поделился некоторыми разумными наблюдениями о так называемой утечке данных.

Райан написал в Твиттере:

«Мы не знаем, предназначено ли это для производства или для испытаний. Я предполагаю, что это в основном для тестирования потенциальных изменений.

Мы не знаем, что используется для Интернета или для других вертикалей. Некоторые вещи можно использовать только для Google Home, новостей и т. д.

Мы не знаем, что вводится в алгоритм ML и что используется для обучения. Я предполагаю, что клики не являются прямым вводом, а используются для обучения модели прогнозированию кликабельности. (Усиление внешнего тренда)

Я также предполагаю, что некоторые из этих полей применимы только к наборам обучающих данных, а не ко всем сайтам.

Я говорю, что Google не лгал? Нисколько. Но давайте расследовать эту утечку объективно, а не с какой-либо предвзятостью».

@DavidGQuaid написал в Твиттере:

«Мы также не знаем, предназначено ли это для поиска Google или поиска документов Google Cloud.

Кажется, API-интерфейсы выбирают сами — я не ожидаю, что алгоритм будет работать — что, если инженер захочет пропустить все эти проверки качества — похоже, я хочу создать приложение для хранения контента для базы знаний моей компании»

Связаны ли «утечки» данных с поиском Google?

На данный момент нет никаких доказательств того, что эти «утекшие» данные на самом деле взяты из Google Search. Существует огромная неясность относительно цели данных. Примечательно, что есть намеки на то, что эти данные представляют собой просто «внешний API для создания хранилища документов, как следует из названия» и никоим образом не связаны с рейтингом веб-сайтов в поиске Google.

ЧИТАТЬ   Лучшие предложения Chromebook ко Дню труда: купите новый ноутбук за 159 долларов | Цифровые тенденции

Вывод о том, что эти данные получены не из Google Поиска, на данный момент не является окончательным, но, похоже, именно в этом направлении дует ветер доказательств.

Рекомендованное изображение: Shutterstock/Jaaak

Source