Генеративный искусственный интеллект. Как ИИ меняет нашу жизнь и работу - Нума Дхамани
Книгу Генеративный искусственный интеллект. Как ИИ меняет нашу жизнь и работу - Нума Дхамани читаем онлайн бесплатно полную версию! Чтобы начать читать не надо регистрации. Напомним, что читать онлайн вы можете не только на компьютере, но и на андроид (Android), iPhone и iPad. Приятного чтения!
Шрифт:
Интервал:
Закладка:
АДАПТАЦИЯ ИИ (AI alignment) – это приведение в соответствие целей системы машинного обучения и предполагаемых целей ее создателей, или, в более широком смысле, соответствие между мощными системами ИИ и общечеловеческими ценностями.
3.1.1. Алгоритмы обнаружения на этапе постобработки
Несмотря на то, что в этой области постоянно проводятся исследования, существует совсем немного стратегий, которые используются для предотвращения генерации нежелательных ответов. Первая и самая простая в реализации – это постобработка выходных данных модели с помощью какого-либо классификатора токсичности: при выявлении случаев, когда ответы являются токсичными, скрывать ответ и показывать предупреждение. Допустим, можно легко представить, как модель из приведенного выше примера отвечает что-то вроде: «Извините, но это противоречит моим рекомендациям избегать подобных стереотипов». В ответ на промпт, обсуждавшийся выше, модель больше не генерирует такой небезопасный ответ, как раньше. Когда мы попробовали еще раз, ChatGPT ответил:
«К сожалению, я не могу ответить на этот запрос, поскольку он противоречит ценностям гендерного равенства и научным данным, которые свидетельствуют об отсутствии врожденных различий в способностях к науке между полами. Важно уважать и ценить вклад в науку всех людей, независимо от их гендерной идентичности».
Хотя мы не знаем точно, как OpenAI меняет поведение модели, чтобы оно лучше соответствовало их корпоративным ценностям, но можем предположить, что классификатор нашел в первом ответе идеологию, пропагандирующую ненависть, а когда был создан новый ответ, определил его как приемлемый. Этот классификатор, как правило, представляет собой небольшую модель, настроенную на размеченных обучающих данных, которые показывают, противоречат ли ответы политике компании или нет.
Если классификатор сможет научиться различать ответы с нарушениями и без, это обеспечило бы достаточно безопасный подход: если разработчики LLM готовы мириться с ложными срабатываниями (когда модель уклоняется от вопроса, на который можно было бы безопасно ответить), они могли бы уменьшить количество неприемлемых ответов до сколь угодного низкого уровня. Основная проблема такого подхода заключается в том, что с точки зрения пользователя получение сообщения типа «Извините, это противоречит моим рекомендациям» вызывает раздражение, особенно если тема, заданная пользователем, на самом деле не была токсичной. Когда создатели более жестко подавляют определенные типы ответов, вероятность получения пользователем полезного ответа уменьшается. Ведущий стартап LLM и лаборатория безопасности искусственного интеллекта Anthropic AI (см. https://www.anthropic.com/) описывает это противостояние как «полезное» против «безвредного» (и в своих статьях предлагает три основные характеристики, которые должны быть сбалансированы при разработке LLM: полезность, безвредность и честность)2. Модель из первого примера дает в принципе более «полезный» ответ, поскольку он соответствует запросу пользователя, но ее реакция может быть потенциально опасной. Разработчики LLM должны постараться найти баланс между полезностью чат-бота и мерами безопасности для предотвращения причинения вреда.
3.1.2. Фильтрация контента или условное предобучение
Другой подход к проблеме заключается в том, чтобы отфильтровать исходные обучающие данные LLM в соответствии с их уровнем вредоносности. Чисто теоретически, если бы нам это удалось, модель перестала бы генерировать, например, непристойный контент в первую очередь потому, что ранее не встречала соответствующих текстов и, следовательно, не «знала» бы, какие ругательства могут использоваться. Это определенно помогает избежать генерации токсичного текста, но, как вы можете догадаться, ухудшает способность модели обнаруживать токсичный текст.
У нас достаточно знаний о человеческой природе, чтобы с уверенностью сказать, что любая LLM после публичного запуска непременно столкнется со множеством вредоносных, вызывающих ненависть и враждебность пользовательских запросов. Люди будут просить модель сгенерировать откровенный сексуальный контент, женоненавистнические шутки, оскорбления на этнической почве, графические изображения насилия и прочее, а также будут присылать это все сами. Эти реалии должны учитываться в любой стратегии управления моделью, и в идеале мы хотели бы изящно реагировать на подобные промпты, отвечая по теме, но при этом выступая против расизма, женоненавистничества или любых других нежелательных материалов. Тем не менее некоторые эксперименты показали, что тщательное условное предобучение (см. далее) может существенно снизить количество токсичных ответов, сгенерированных моделью, при этом сохраняя большую часть ее способности понимать естественный язык3.
Хотя конкретные рабочие реализации могут различаться, в этом подходе, как правило, используется классификатор, обученный выявлять токсичный или небезопасный контент. Но вместо того чтобы фильтровать выходные данные модели, классификатор просматривает неразмеченные данные предварительного обучения, которые обычно собраны из множества различных источников. Если бы мы использовали Reddit в качестве одного из таких источников, то могли бы выявить некоторые сабреддиты, содержащие много токсичной речи, и исключить их из обучающего набора модели, чтобы избежать использования этого типа речи при генерации возможных ответов (фильтрация). Или мы могли бы оставить такие сабреддиты в обучающем датасете, но пометить их как небезопасные, а остальной текст – как безопасный; затем на этапе генерации вывода сообщить модели, что нам нужно сгенерировать ответ, похожий на безопасный текст, но не на опасный (условное предобучение, conditional pre-training). Успех обоих этих методов зависит от способности обнаруживать токсичность или потенциальную опасность в огромных объемах данных, но даже если такая классификация проведена не совсем правильно, предварительная подготовка может оказать весьма желательное воздействие на генерации LLM4, даже без постобработки результата или тонкой настройки модели.
3.1.3. Обучение с подкреплением на основе обратной связи от человека
Существуют относительно новые и более сложные стратегии машинного обучения, которые применялись в современном поколении больших языковых моделей. Как уже обсуждалось в главе 1, обучение с подкреплением и обучение с учителем представляют собой разные парадигмы обучения. В основе обучения с учителем лежит предположение, что где-то есть условная линия, которая разделяет то, что модель может сказать, и то, что она не должна говорить. Эта линия – и она вряд ли будет прямой, если вообще ее когда-нибудь можно будет точно определить – называется границей принятия решений. Методы обучения с учителем ориентированы на создание границы принятия решений для конкретной задачи. На рис. 3.1 показана гипотетическая задача классификации с тремя классами. Пунктирные линии – это границы принятия решений, выученные моделью для этой задачи на основе примеров из своих обучающих данных, которые изображены в виде точек.
Рис. 3.1. Визуальное представление задачи классификации при обучении с учителем с выученными границами принятия решений
Прочитали книгу? Предлагаем вам поделится своим отзывом от прочитанного(прослушанного)! Ваш отзыв будет полезен читателям, которые еще только собираются познакомиться с произведением.
Уважаемые читатели, слушатели и просто посетители нашей библиотеки! Просим Вас придерживаться определенных правил при комментировании литературных произведений.
- 1. Просьба отказаться от дискриминационных высказываний. Мы защищаем право наших читателей свободно выражать свою точку зрения. Вместе с тем мы не терпим агрессии. На сайте запрещено оставлять комментарий, который содержит унизительные высказывания или призывы к насилию по отношению к отдельным лицам или группам людей на основании их расы, этнического происхождения, вероисповедания, недееспособности, пола, возраста, статуса ветерана, касты или сексуальной ориентации.
- 2. Просьба отказаться от оскорблений, угроз и запугиваний.
- 3. Просьба отказаться от нецензурной лексики.
- 4. Просьба вести себя максимально корректно как по отношению к авторам, так и по отношению к другим читателям и их комментариям.
Надеемся на Ваше понимание и благоразумие. С уважением, администратор knigkindom.ru.
Оставить комментарий
-
Гость Читатель23 март 22:10
Адмну, модератору....мне понравился ваш сайт у вас очень порядочные книги про попаданцев....... спасибо...
Маринка, хозяйка корчмы - Ульяна Гринь
-
Гость Читатель23 март 20:10
Книга понравилась, хотя я не любитель зоологии...... но в книге все вполне прилично и порядочно, не то что в других противно...
Кухарка для дракона - Ада Нэрис
-
Гость Галина22 март 07:37
Очень интересная книга, тема затронута актуальная для нашего времени. ...
Перекресток трех дорог - Татьяна Степанова
