Как генеративный ИИ использует наши данные

Как генеративный ИИ использует наши данные

[ad_1]

Системы ИИ вызывают немало опасений, в том числе то, как они используют данные. Мы очень мало знаем о том, откуда эти модели получают необходимые им петабайты данных, как эти данные используются и какие меры защиты, если таковые имеются, применяются, когда речь заходит о конфиденциальной информации. Разработчики неохотно говорят на эту тему, и, возможно, сами не знают об этом.

Возможно, вас это устраивает, или вам кажется, что польза генеративного ИИ перевешивает риски. Но так считают далеко не все.

Как генеративный ИИ использует наши данные

Елена Лиханова

Две недели назад в Twitter завирусился пост, автор которого обвинил Google в сборе данных из Google Документов для обучения ИИ. В комментариях он добавил, что компания «годами использовала документы и email для обучения своего искусственного интеллекта».

Первоначальный твит набрал почти 10 млн просмотров, и его репостнули тысячи раз. Никто не обратил внимание на то, что это, возможно, даже не соответствует действительности.

Google заявляет, что без разрешения пользователя не использует данные из своих бесплатных или корпоративных продуктов, включая Почту и Документы. Тем не менее, компания использует анонимизированные данные для обучения таких функций, как проверка орфографии и Smart Compose.

Вероятно, судебные иски и изменения в законодательстве обеспечат защиту нашей информации в будущем. Но эти компании уже собрали наши данные, использовали их и смогли на них заработать. И вряд ли мы сможем что-то с этим сделать.

Как разработчики получают ваши данные

Грубо говоря, системам генеративного ИИ нужно как можно больше данных для обучения. Чем больше они получат, тем точнее будут представлять, как звучат, выглядят, разговаривают и пишут люди.

Интернет предоставляет огромные объемы данных, которые относительно легко получить с помощью агрегаторов и API-интерфейсов. Но эти инструменты не делают различий между произведениями, защищенными авторским правом, или личными данными; если что-то находится в доступе, оно будет использовано.

Это означает, что какой-нибудь стартап может взять ваши данные для запуска технологии, о которой вы и не подозревали. Они могли появиться в сети за годы до запуска этого стартапа. Быть может, их даже опубликовали не вы. Или, возможно, вы думали, что предоставляете свои данные компании для цели, которая вас устраивала, но теперь вы боитесь, что они были использованы для чего-то другого.

Не помогает делу и то, насколько осторожно компании, занимающиеся генеративным ИИ, раскрывают свои источники данных, часто просто заявляя, что они «общедоступны».

В списке источников первой модели LLaMA от Meta* упоминается Common Crawl, который представляет собой архив с открытым исходным кодом всего интернета, а также такие сайты, как Github, Википедия и Stack Exchange, которые также являются огромными хранилищами информации. В отношении источников Llama 2 Meta* не была столь откровенна. Все эти источники могут содержать личную информацию.

OpenAI признает, что использует персональные данные для обучения своих моделей, но говорит, что находит их «случайно» и использует их только для того, чтобы сделать «модели лучше», а не чтобы создавать профили людей для продажи им рекламы.

У Google и Meta* есть огромные массивы персональных пользовательских данных, которые, по их словам, они сейчас не используют для обучения своих языковых моделей. Впрочем, нет гарантии, что они не сделают этого в будущем, особенно если это означает получение конкурентного преимущества.

Известно, что Google годами сканировала электронные письма пользователей, чтобы таргетировать рекламу (компания заявляет, что больше этого не делает).

Meta* попала в большой скандал и получила штраф в размере $5 млрд, когда поделилась данными с третьими лицами, включая Cambridge Analytica, которая затем использовала их не по назначению.

Дело в том, что эти компании дали пользователям множество поводов не доверять их сообщениям о конфиденциальности данных или обязательствам создавать безопасные системы.

Авторские права, законы о конфиденциальности и «общедоступные» данные

Для создателей, например, писателей, музыкантов и актеров, авторские права и права на изображения являются серьезной проблемой, и довольно очевидно почему. Модели генеративного ИИ обучались на их произведениях, и при этом могут оставить их без работы.

Вот почему комик Сара Сильверман подает в суд на OpenAI и Meta* в рамках коллективного иска. Она утверждает, что две компании обучались на ее произведениях, используя наборы данных с текстом из ее книги The Bedwetter. Есть также судебные иски по поводу прав на изображения и использования опен-сорс кода.

Использование генеративного ИИ также стало одной из причин, по которой писатели и актеры бастуют, причем оба их профсоюза, WGA и SAG-AFTRA, опасаются, что студии будут тренировать модели на репликах и изображениях артистов и просто генерировать новый контент, не выплачивая компенсации людям.

Но у рядового пользователя может не быть интеллектуальной собственности, которую нужно защищать, или, по крайней мере, его заработок не будет от этого зависеть. Гораздо больше его волнует то, как OpenAI и прочие защищают вашу конфиденциальность, когда их системы собирают информацию, перемешивают ее и выкладывают обратно.

Регулирующие органы, законодатели и юристы тоже задаются этим вопросом.

  • Италия даже временно запретила ChatGPT по вопросам конфиденциальности.
  • Другие европейские страны рассматривают возможность проведения собственных проверок в отношении ChatGPT.
  • Кроме того, OpenAI привлекла внимание Федеральной торговой комиссии, и в ее отношении ведется расследование на предмет возможных нарушений законов о защите прав потребителей. Агентство также дало понять, что будет внимательно следить за инструментами генеративного ИИ.

Пока у моделей нет возможности удалить личную информацию, которые они о нас узнали, что является чистым примером нарушения конфиденциальности.

Инструменты ChatGPT для очистки и удаления данных предназначены только для той информации, что собрана пользователями сервиса. Теперь у людей в «определенных юрисдикциях» есть возможность отказаться от обработки данных моделями OpenAI, но нет гарантии, что это произойдет, и для этого нужно сначала доказать, что данные были обработаны.

Несмотря на то, что OpenAI недавно изменила свою политику и прекратила обучать модели на основе данных, предоставленных ее собственными клиентами, возникает еще одна проблема конфиденциальности, связанная с тем, как эти модели используют данные, которые вы им предоставляете, когда используете их, и информацию, которую они публикуют в открытом доступе.

CEO OpenAI Сэм Альтман признает, что клиенты явно хотят, чтобы компания не тренировалась на их данных. Тем временем на OpenAI подали в суд за клевету из-за ответа ChatGPT, в котором ложно утверждалось, что кто-то обманул НКО и украл деньги. И это не единственный случай, когда в ответе ChatGPT содержатся ложные обвинения.

Что с этим можно сделать? Вот что здесь самое сложное. Многие проблемы с конфиденциальностью в настоящее время являются результатом того, что в прошлом не было подходящих законов о конфиденциальности, которые могли бы защитить данные еще до того, как были созданы эти наборы данных и технологии.

Мы всегда можем постараться публиковать меньше данных, но с тем, что уже попало в сеть, практически ничего не сделать. Для этого вам понадобилась бы машина времени, а пока ее не изобрел даже генеративный ИИ.

* Meta и входящие в нее Facebook и Instagram признаны экстремистскими организациями, деятельность которых запрещена в РФ.

Источник.

Фото на обложке: Unsplash

Подписывайтесь на наш Telegram-канал, чтобы быть в курсе последних новостей и событий!

[ad_2]

Source link