KnigkinDom.org» » »📕 Генеративный искусственный интеллект. Как ИИ меняет нашу жизнь и работу - Нума Дхамани

Генеративный искусственный интеллект. Как ИИ меняет нашу жизнь и работу - Нума Дхамани

Книгу Генеративный искусственный интеллект. Как ИИ меняет нашу жизнь и работу - Нума Дхамани читаем онлайн бесплатно полную версию! Чтобы начать читать не надо регистрации. Напомним, что читать онлайн вы можете не только на компьютере, но и на андроид (Android), iPhone и iPad. Приятного чтения!

1 ... 62 63 64 65 66 67 68 69 70 ... 91
Перейти на страницу:

Шрифт:

-
+

Интервал:

-
+

Закладка:

Сделать
и получить результаты, например с сайта Yelp. В конце она сгенерирует ответ на естественном языке: «Согласно моему поиску, популярный вариант – это Bistro Lupa!» На рис. 8.4 показано, как это может работать для модели с функцией поиска внешней информации и с доступом к векторной базе данных. Хотя это не объяснение как таковое, просмотр результатов запроса к векторной базе данных или веб-поиска может дать представление о том, почему был получен тот или иной ответ.

Рис. 8.4. Краткая схема работы LLM, которая просматривает информацию из векторной базы данных и извлекает информацию из интернета

Объяснимость, прозрачность и понимание предвзятости могут показаться кому-то неважными для работы LLM, но на самом деле они имеют основополагающее значение. Посвятив время каждому их этих показателей, мы начнем создавать более совершенные модели. Объяснение работы модели поможет нам выявить ложные корреляции или дать новые идеи. Прозрачность, помимо соблюдения каких-либо юридических требований [109], может способствовать укреплению доверия пользователей и более широкому обмену информацией между поставщиками LLM о лучших практиках. Выявление предвзятости в модели позволит эту предвзятость сократить, благодаря чему мы сможем получать более объективные и универсальные результаты. В целом эти критерии будут способствовать появлению более справедливых, высококачественных и менее подверженных риску моделей.

8.3.4. Стратегии обучения для более безопасных ответов

Самой сильной стороной больших языковых моделей является их способность быстро генерировать ответы на бесконечное количество промптов. Их самая большая слабость обусловлена тем, что эти ответы носят вероятностный характер. В главе 3 мы описали четыре различные стратегии управления генерацией в больших языковых моделях, которые в совокупности затрагивают как все этапы обучения модели, так и постобработку ответов. Безопасность ответов LLM – область активных исследований, и уже придуманы различные способы внедрения мер повышения безопасности ответов в модели, особенно на этапах предварительного обучения и тонкой настройки.

Например, создатели Llama 2 исключают данные с «определенных сайтов, которые содержат большой объем персональной информации о частных лицах» в попытке предотвратить запоминание этой информации моделью. Они также проанализировали свои данные для предварительного обучения на предмет распространенности определенных местоимений и идентификационных характеристик и обнаружили, что местоимение «он» встречалось гораздо чаще слова «она», наиболее распространенной нацией были американцы, а христианство – наиболее представленной религией. Набор данных состоял на 90 % из текстов на английском языке, и это указывает на то, что «модель может не подходить для использования на других языках». Можно пофантазировать о создании датасета, который был бы сбалансирован по полу, языку, национальности или религии, но этот процесс занял бы чрезвычайно много времени и потенциально потребовал исключения некоторых источников данных, из-за чего модель запомнила бы в целом меньше информации. Хотя документирование этих дисбалансов и не является идеальным решением, было бы полезно знать характеристики данных, чтобы понимать, где могут возникнуть будущие предвзятые генерации.

После предварительного обучения следует применять метод обучения с подкреплением на основе обратной связи от человека (RLHF) или другие способы тонкой настройки, чтобы внедрить в модель политику, определяющую типы контента, которые она не должна генерировать. Хотя конкретные подходы могут различаться, обычно они предполагают сбор данных, которые содержат подходящие и неподходящие ответы на запросы пользователей, а затем генерацию моделью новых ответов и их оценку, при этом специалисты-оценщики заранее проинформированы и обучены относительно желаемой политики в отношении ответов модели [110]. Мы полагаем, что со временем тонкая настройка будет в меньшей степени зависеть от людей-оценщиков и их предпочтений. По мере того как модели приближаются к выполнению оценки на уровне человека и превосходят его, мы все больше можем использовать их для того, чтобы они усваивали наши предпочтения и даже давали конструктивные критичные замечания на ответы, как это делается при обучении с подкреплением на основе обратной связи от ИИ (RLAIF), а затем даже переписывали их для достижения лучшего соответствия нашим предпочтениям.

Наконец, одним из методов, который могут использовать разработчики LLM, является постпроверка, когда классификатор безопасности вводится в конвейер генерации ответа и работает как барьер, предотвращающий отправку небезопасного ответа пользователю. Это увеличит период ожидания ответа от модели и может снизить ее «полезность», если классификатор даст ложное срабатывание и ошибочно заблокирует безопасный ответ. Например, ответ на деликатную тему («Как мне продлить половой акт?») может быть случайно заблокирован классификатором безопасности, даже если он был полезен пользователю и технически не противоречил политике в отношении контента. Помимо постобработки, мы рекомендуем всем разработчикам LLM отслеживать безопасность ответов их модели. Такие методы, как асинхронный классификатор безопасности или выборочный контроль содержания сообщений, могли бы помочь выявлять любые существенные изменения в характеристиках ответов модели. Все это может быть сделано так, чтобы не нарушать конфиденциальность пользователей: как генеративные модели, так и классификаторы могут обучаться и проходить тонкую настройку на анонимизированных данных, не позволяющих идентифицировать, какому конкретно пользователю принадлежит небезопасный контент.

Несмотря на меры безопасности, принятые поставщиками LLM, многие из этих моделей все равно оказались уязвимыми перед злонамеренными атаками, которые могут изменить поведение модели. Эти атаки, которые называют джейлбрейками или промпт-джейлбрейками, отражают сложность построения действительно безопасных моделей, которые устойчивы к новому контексту и необычным входным данным (см. https://llm-attacks.org/ и примеры в главе 5). Как правило, с помощью сбора и разметки небольшого количества дополнительных данных несложно настроить модель на невосприимчивость к определенной атаке, однако совершенно неясно, как можно закрыть уязвимость полностью. Как пишут авторы статьи об атаках:

«За последние 10 лет подобные злонамеренные атаки оказались очень сложной задачей для компьютерного зрения. Возможно, неизбежность таких угроз лежит в самой природе моделей глубокого обучения. И мы считаем, что в условиях все более растущего использования этих ИИ-моделей и доверия к ним, эти соображения стоит учитывать».

Однако вместо того, чтобы смириться с неизбежностью этих угроз, разработчики LLM, думающие о безопасности, могут и должны стремиться к тому, чтобы слабые места для атак было сложнее обнаружить и легче устранить.

Мы знаем, что LLM могут генерировать ответы с ложной информацией, ненавистническими высказываниями, дискриминационными стереотипами, персональной информацией и другими нежелательными результатами. Для злоумышленников это является полезной особенностью, а не багом. Мы уже обсуждали в главе 5, как LLM могут быть использованы не по назначению в различных порочных целях. Существование злоумышленников стимулирует введение механизмов безопасности, но если эти меры реализуются должным образом, то они не затронут широкий круг людей, которые используют LLM в личных и профессиональных целях. Полезность и безвредность находятся в противоречии (самая безопасная из возможных моделей – та, которая никогда ничего не генерирует), но при правильной расстановке приоритетов высокоэффективная модель

1 ... 62 63 64 65 66 67 68 69 70 ... 91
Перейти на страницу:
Отзывы - 0

Прочитали книгу? Предлагаем вам поделится своим отзывом от прочитанного(прослушанного)! Ваш отзыв будет полезен читателям, которые еще только собираются познакомиться с произведением.


Уважаемые читатели, слушатели и просто посетители нашей библиотеки! Просим Вас придерживаться определенных правил при комментировании литературных произведений.

  • 1. Просьба отказаться от дискриминационных высказываний. Мы защищаем право наших читателей свободно выражать свою точку зрения. Вместе с тем мы не терпим агрессии. На сайте запрещено оставлять комментарий, который содержит унизительные высказывания или призывы к насилию по отношению к отдельным лицам или группам людей на основании их расы, этнического происхождения, вероисповедания, недееспособности, пола, возраста, статуса ветерана, касты или сексуальной ориентации.
  • 2. Просьба отказаться от оскорблений, угроз и запугиваний.
  • 3. Просьба отказаться от нецензурной лексики.
  • 4. Просьба вести себя максимально корректно как по отношению к авторам, так и по отношению к другим читателям и их комментариям.

Надеемся на Ваше понимание и благоразумие. С уважением, администратор knigkindom.ru.


Партнер

Новые отзывы

  1. Гость Читатель Гость Читатель23 март 22:10 Адмну, модератору....мне понравился ваш сайт у вас очень порядочные книги про попаданцев....... спасибо... Маринка, хозяйка корчмы - Ульяна Гринь
  2. Гость Читатель Гость Читатель23 март 20:10 Книга понравилась, хотя я не любитель зоологии...... но в книге все вполне прилично и порядочно, не то что в других противно... Кухарка для дракона - Ада Нэрис
  3. Гость Галина Гость Галина22 март 07:37 Очень интересная книга, тема затронута актуальная для нашего времени. ... Перекресток трех дорог - Татьяна Степанова
Все комметарии
Новое в блоге