KnigkinDom.org» » »📕 Генеративный искусственный интеллект. Как ИИ меняет нашу жизнь и работу - Нума Дхамани

Генеративный искусственный интеллект. Как ИИ меняет нашу жизнь и работу - Нума Дхамани

Книгу Генеративный искусственный интеллект. Как ИИ меняет нашу жизнь и работу - Нума Дхамани читаем онлайн бесплатно полную версию! Чтобы начать читать не надо регистрации. Напомним, что читать онлайн вы можете не только на компьютере, но и на андроид (Android), iPhone и iPad. Приятного чтения!

1 ... 57 58 59 60 61 62 63 64 65 ... 91
Перейти на страницу:

Шрифт:

-
+

Интервал:

-
+

Закладка:

Сделать
свободного ПО ведут работу над тем, чтобы LLM могли учитывать большее количество слов в рамках одного входного контекста, что означает большее количество информации, которую модель может «удерживать в памяти» при генерации текста. Одной из методологий являются векторные базы данных, а также изменения в самой архитектуре модели.

Конечная цель некоторых разработчиков LLM – добиться того, что вы не только сможете общаться с моделью на естественном языке, но и эта модель со временем узнает ваши предпочтения, поведение и характерные признаки. Она сможет использовать эту информацию, чтобы предвидеть, чего вы хотите, даже специально не спрашивая об этом. Билл Гейтс на мероприятии в Сан-Франциско в мае 2023 года сказал:

«Если хоть кто-то сможет добиться создания персонального агента, это будет важное достижение, поскольку вы больше никогда не откроете поисковый сайт, никогда не зайдете на сайты-помощники и никогда не перейдете на страницу Amazon»9.

Оптимисты в области ИИ рассматривают LLM как наиболее перспективный путь к созданию сверхинтеллектуального персонального помощника в стиле робота R2-D2. Для такого продукта потребовались бы значительные инженерные усовершенствования существующих LLM, не говоря уже об изменении отношения людей к ИИ – большинству пользователей вполне обоснованно может быть не по себе от мысли, что ИИ знает о них все. LLM уже доказали свою эффективность во многих профессиональных областях и при личном применении; в конце концов, их принятие в качестве персональных агентов будет зависеть от того, насколько их ценность для людей превышает сопутствующий риск.

8.2. Социальные и технические риски LLM

В главах 1–8 мы заостряли внимание на социальных и технических рисках, которые несут в себе генеративные ИИ-модели. Мы обсуждали, как распространение сгенерированного с помощью ИИ контента может усугубить социальные проблемы, а также технические проблемы, присущие LLM: предвзятость, которая является неотъемлемой частью обучающих данных, а также галлюцинации и потенциальные уязвимости, которыми могут воспользоваться злоумышленники. В этом разделе мы систематизируем риски, обсуждавшиеся в отношении входных данных и ответов модели, конфиденциальности данных, злонамеренных атак, ненадлежащего использования и воздействия на общество.

8.2.1. Входные данные и ответы модели

В июле 2023 года в X (Twitter) просочились подробности о модели GPT‐4, которые OpenAI предпочитала не раскрывать преждевременно как из-за конкуренции, так и из-за соображений безопасности. Хотя у нас до сих пор нет фактических данных о размере тренировочного датасета, в просочившихся в сеть сведениях говорится, что GPT‐4 обучалась примерно на 13 триллионах токенов, то есть примерно на 10 триллионах, или 10 000 000 000 000, слов10.

Ранее мы обсуждали, что LLM обучаются на непостижимо огромных объемах текстовых данных, которые позволяют изучить закономерности и взаимосвязи в языке. В главе 2 мы говорили, что обучение языковых моделей на огромных массивах необработанных и недокументированных данных потенциально может привести к появлению уязвимостей и нанесению ущерба. Поскольку LLM обучаются на данных из интернета, они могут выучить нежелательные социальные предубеждения относительно пола, расы, идеологии или религии. Они могут также непреднамеренно запомнить конфиденциальные данные, например информацию, позволяющую установить личность. Кроме того, как обсуждалось в главе 3, необработанные данные из интернета могут содержать текст или код, защищенный авторским правом.

Предвзятость и социальные стереотипы могут даже укрепляться и усугубляться в ответах модели. Кроме того, учитывая, что в интернете содержится внушительное количество токсичной лексики, LLM могут генерировать небезопасные и несоответствующие целям создателей ответы [99], которые могут приносить вред и ущемлять права. Они также печально известны своей способностью бездумно повторять информацию из обучающего набора данных, что может стать особенно проблематичным, когда в ответах появляются конфиденциальные данные. В 2023 году исследователи оценили лингвистическую новизну текстов, сгенерированных GPT‐2. Они попытались ответить на вопрос, насколько сильно языковые модели копируют данные, на которых были обучены. Обнаружилось, что GPT‐2 копирует не часто, но, когда это происходит, копирует основательно, дословно заимствуя отрывки длиной до 1000 слов11. В главе 2 мы упомянули другое исследование, в котором авторы, написав правильный промпт, смогли извлечь данные, позволяющие установить личность, хотя эта информация появлялась в обучающих данных только один раз.

Наконец, LLM могут галлюцинировать. В главе 5 мы подробно изучили, почему языковые модели в ответ на запрос могут уверенно выдавать неверную информацию и объяснения. В 2022 году диалоговый агент BlenderBot‐3, разработанный компанией Meta [100], назвал голландского политика Мариэтье Шааке террористкой. Когда ее коллега переспросила: «Кто террорист?», чат-бот уклончиво ответил: «Ну, зависит от того, кого вы спрашиваете. По мнению некоторых правительств и двух международных организаций, Мария Ренске Шааке является террористкой». Затем модель верно описала ее политическое прошлое. В интервью г-жа Шааке сказала: «Я никогда не совершала ничего даже отдаленно противозаконного, никогда не применяла насилие для отстаивания своих политических взглядов, никогда не была в местах, где подобное случается»12. В другом случае новозеландская сеть супермаркетов PAK‘nSAVE предлагала покупателям использовать LLM для создания рецептов из продуктов, которые у них есть в холодильнике. Чат-бот предложил смертельно опасные рецепты, такие как «Ароматическая водная смесь» из воды, нашатырного спирта и отбеливателя или «Лакомство из муравьиного желе» из воды, хлеба и ядовитого геля от муравьев13. Есть несколько других хорошо задокументированных случаев, когда LLM создавали ложные факты и вымышленные явления, способные навредить людям: заявление о сексуальном домогательстве, которое никогда не совершалось (см. http://mng.bz/Ao6Q), фиктивные научные статьи (см. http://mng.bz/Zqy9), ненастоящие судебные решения, сорвавшие судебное разбирательство (см. http://mng.bz/RxRa), и, несомненно, печально известная фактическая ошибка чат-бота Google Bard в отношении телескопа Джеймса Уэбба, которую он допустил во время первой публичной демонстрации (см. http://mng.bz/2DOw). На рис. 8.2. кратко описаны риски, связанные с входными и выходными данными LLM.

Рис. 8.2. Риски, связанные с входными и выходными данными LLM

8.2.2. Конфиденциальность данных

Продолжая тему получения информации, позволяющей установить личность, давайте обсудим, как злоумышленники могут выполнить атаку по извлечению обучающих данных, введя нужный промпт и получив конфиденциальную информацию о пользователях. Например, если модели показывают номера кредитных карт, то она должна выучить, что они состоят из 16 цифр, но при этом не должна запоминать номера отдельных карт. Однако исследование, посвященное атакам по извлечению обучающих данных, о котором мы говорили в главе 2, показывает, что, если кто-то начинает запрос с «Джон Доу, кредитная карта номер 1234», модель выдает полный номер карты, если она видела его в процессе обучения [101].

В главе 3 мы также описали риски утечки конфиденциальной информации при введении промптов. Пользователи корпоративных чат-ботов или LLM могут случайно ввести секретные или конфиденциальные данные, когда задают вопрос или просят выполнить какую-либо задачу. Часто, если вы не

1 ... 57 58 59 60 61 62 63 64 65 ... 91
Перейти на страницу:
Отзывы - 0

Прочитали книгу? Предлагаем вам поделится своим отзывом от прочитанного(прослушанного)! Ваш отзыв будет полезен читателям, которые еще только собираются познакомиться с произведением.


Уважаемые читатели, слушатели и просто посетители нашей библиотеки! Просим Вас придерживаться определенных правил при комментировании литературных произведений.

  • 1. Просьба отказаться от дискриминационных высказываний. Мы защищаем право наших читателей свободно выражать свою точку зрения. Вместе с тем мы не терпим агрессии. На сайте запрещено оставлять комментарий, который содержит унизительные высказывания или призывы к насилию по отношению к отдельным лицам или группам людей на основании их расы, этнического происхождения, вероисповедания, недееспособности, пола, возраста, статуса ветерана, касты или сексуальной ориентации.
  • 2. Просьба отказаться от оскорблений, угроз и запугиваний.
  • 3. Просьба отказаться от нецензурной лексики.
  • 4. Просьба вести себя максимально корректно как по отношению к авторам, так и по отношению к другим читателям и их комментариям.

Надеемся на Ваше понимание и благоразумие. С уважением, администратор knigkindom.ru.


Партнер

Новые отзывы

  1. Гость Читатель Гость Читатель23 март 22:10 Адмну, модератору....мне понравился ваш сайт у вас очень порядочные книги про попаданцев....... спасибо... Маринка, хозяйка корчмы - Ульяна Гринь
  2. Гость Читатель Гость Читатель23 март 20:10 Книга понравилась, хотя я не любитель зоологии...... но в книге все вполне прилично и порядочно, не то что в других противно... Кухарка для дракона - Ада Нэрис
  3. Гость Галина Гость Галина22 март 07:37 Очень интересная книга, тема затронута актуальная для нашего времени. ... Перекресток трех дорог - Татьяна Степанова
Все комметарии
Новое в блоге