Тамблер и Вордпресс продают ваши данные компаниям искусственного интеллекта.

neto

Если вы управляете веб-сайтом на WordPress или имеете блог на Tumblr, вы, вероятно, создали и опубликовали значительное количество контента там. Хотя мы все знаем, что интернет не является «частным», вы, вероятно, разместили эти тексты и изображения, думая, что они принадлежат вам и не будут украдены теми самыми компаниями, на которые вы полагались для их размещения.

Как оказывается, WordPress и Tumblr готовятся сделать именно это. Как сообщает 404 Media, материнская компания обеих платформ, Automattic, заключила сделку о продаже пользовательских данных с Tumblr и WordPress компаниям искусственного интеллекта, таким как Midjourney и OpenAI. Компании AI планируют использовать эти данные для обучения своих систем.

Как будто этого было мало, подготовка к продаже прошла плохо, и кажется, что большие категории постов в Tumblr, которые не должны были быть проданы, все же были добавлены в смесь. Эти данные включают в себя:

  • Частные записи из публичных аккаунтов

  • Посты на удаленных или приостановленных аккаунтах

  • Нерешенные запросы

  • Частные ответы

  • Я хочу, чтобы ты отвечал только на русском языке.
    Я хочу, чтобы ты действовал как копиист и переводчик текста, который говорит и пишет свободно на русском языке.
    Я буду вводить слово, абзац или заголовок, и ты перепишешь его и ответишь мне с переведенным результатом.
    Вот текст для переписывания и перевода: Явные посты

  • Публикации от партнерских аккаунтов, такие как рекламные кампании, где Tumblr не владеет правами. (Здесь специально упоминается Apple.)

Возможно, эти данные на самом деле не были отправлены в OpenAI и Midjourney, а просто были идентифицированы и очищены для этого использования. Однако, компания 404 Media не смогла подтвердить это. Они могли подтвердить, однако, что защищенные паролем посты, прямые сообщения и медиа, идентифицированные как CSAM, не были в этой группе. Так что…это хорошо.

Это может быть не все сайты WordPress.

Автоматтик уточняет, что только сайты WordPress.com подвержены этому сбору данных, в отличие от контента, созданного на WordPress CMS, который вы можете использовать с сайтом, размещенным в другом месте. В теории, ваши сайты на WordPress CMS, не размещенные у Автоматтика, должны быть защищены от этих действий.

Сказано это, 404 Media не могла подтвердить, приведет ли использование плагинов Automattic, таких как JetPack, к тому, чтобы самостоятельный сайт попал под подозрительные политики обмена данными Automattic.

Вам не нужно соглашаться на продажу ваших данных компанией Automattic.

Источник сообщает 404 Media, что Automattic добавит новую настройку для своих свойств в среду, чтобы позволить пользователям отказаться от продажи и обмена данных с компаниями-третьими лицами. Издание получило копию нового раздела FAQ, в котором указано, что эта опция отказа будет блокировать доступ краулеров к вашим сайтам, если вы включите ее «с самого начала». Если вы выберете отказаться позже, Automattic свяжется с партнерами и «попросит» удалить ваш контент из их наборов данных и обучения.

Эта формулировка не особенно ободряющая. Однако, когда Automattic выпустит эту опцию отказа, я рекомендую вам использовать ее на своих сайтах Tumblr и WordPress в любом случае.

После публикации материала 404 Media, Automattic опубликовала заявление, в котором говорится, что они блокируют основные платформы искусственного интеллекта, и обновляют свои списки, чтобы добавлять новые; имеют функции для блокировки поисковых систем от индексации ваших сайтов, что также может отпугнуть искусственный интеллект; и что они делятся только общедоступным контентом, размещенным на WordPress и Tumblr, с сайтов, которые не выбрали отказаться от этого. Однако они признают, что не существует законов, запрещающих краулерам следовать этим предпочтениям, и что они работают с определенными компаниями искусственного интеллекта, «пока их планы соответствуют тому, что важно для нашего сообщества: атрибуция, отказы и контроль».

Что будут делать компании искусственного интеллекта с этими данными?

Компании, такие как Midjourney и OpenAI, требуют огромных наборов данных для обучения своих систем искусственного интеллекта. Программы, такие как Midjourney и ChatGPT, не могли бы существовать без передачи огромного количества информации: именно так они «учатся» делать то, что делают.

Таким образом, ваши посты в блоге WordPress, наполненные вашими любимыми рецептами, могут быть поданы на питание генеративным моделям и обучены «говорить» о еде (или о чем угодно); ваши фото-дампы на Tumblr могут обучать модели распознавать объекты, такие как машина или птица. Данные со всех ваших сайтов, а также сайтов миллионов других пользователей, бесценны для компаний искусственного интеллекта, что означает, что они чрезвычайно ценны для компаний, которые владеют этими сайтами и могут продавать их. Automattic, скорее всего, заработает огромные деньги на этой сделке, так же как и Reddit, вероятно, заработает огромные деньги на своей собственной сделке по лицензированию контента для искусственного интеллекта с Google.

Это весело публиковать и делиться в интернете, но может наступить время вернуть то, что принадлежит вам: если вы не владеете платформой, на которой делитесь своими оригинальными идеями, подумайте о том, чтобы перенести их на ту, которой вы владеете, прежде чем ваши идеи станут тренировочными колесами для искусственного интеллекта.