Генеративный искусственный интеллект. Как ИИ меняет нашу жизнь и работу - Нума Дхамани
Книгу Генеративный искусственный интеллект. Как ИИ меняет нашу жизнь и работу - Нума Дхамани читаем онлайн бесплатно полную версию! Чтобы начать читать не надо регистрации. Напомним, что читать онлайн вы можете не только на компьютере, но и на андроид (Android), iPhone и iPad. Приятного чтения!
Шрифт:
Интервал:
Закладка:
Рис. 3.2. Общая схема обучения с подкреплением и обратной связью от человека (RLHF)
Обучение с подкреплением подразумевает управление поведением модели и раньше в основном использовалось для выполнения задач с легко определяемой функцией вознаграждения. Однако для надежного разделения на хорошие и плохие ответы, особенно учитывая широкий спектр возможных нежелательных тем – от публикации личной информации до создания вредоносной дезинформации, такой функции нет. Еще более проблематичным оказалось то, что не во всех случаях можно легко сказать, каков бы был допустимый и желаемый ответ модели, поэтому просто предопределить набор сценариев поведения не получается. В 2017 году исследователи из OpenAI и DeepMind предложили решение: через обучение с подкреплением попытаться «отучить» модель от небезопасного поведения, давая ей обратную связь с человеком и, таким образом, итеративно определяя функцию вознаграждения5. На практике это означает, что людей просят оценить ответы модели: либо обозначить эти ответы как приемлемые или проблемные, либо только указать предпочтительный ответ. Несмотря на то, что люди по-прежнему оценивают ответы модели по-разному, совокупные данные о предпочтениях людей в конечном итоге приблизят модель к идеальному поведению. С помощью этих данных вычисляется функция вознаграждения для модели, и со временем ответы модели улучшаются, а это улучшение определяется как написание более качественных и менее проблемных ответов, опять же по оценкам людей. Эта стратегия, известная как обучение с подкреплением и обратной связью от человека (reinforcement learning with human feedback, RLHF) (см. рис. 3.2), оказалась гораздо более масштабируемой и гибкой, чем предыдущие методы, и ее быстро приняли разработчики LLM по всей отрасли.
Однако у RLHF есть реальные издержки, как финансовые, так и эмоциональные. Краудсорсинговая разметка данных уже давно стала стандартной практикой при создании систем машинного обучения, в частности для модерации контента. В этой работе приходится постоянно просматривать контент, который может быть травматичным, и поэтому обычно она передается на аутсорсинг подрядчикам или фрилансерам, у которых нет ресурсов защиты на рабочем месте наемных работников. В случае ChatGPT расследование TIME показало, что OpenAI привлекала кенийских рабочих и платила им от 1 до 2 долларов в час за то, чтобы они размечали примеры ненавистнических высказываний, сексуального насилия и жестокости среди другого контента. С помощью этих размеченных примеров получилось создать инструмент для обнаружения «токсичного» контента, который в конечном итоге был встроен в ChatGPT. По словам кенийских работников, они не только получали низкую оплату, но и были «морально травмированы» тем содержанием, с которым им приходилось сталкиваться6. Даже самые передовые модели машинного обучения в мире по-прежнему в значительной степени зависят от человеческого интеллекта и труда.
3.1.4. Обучение с подкреплением на основе обратной связи от ИИ
Поскольку обратная связь от людей требует затрат, а искусственный интеллект может выполнять работу масштабнее и быстрее, новейшие методы обеспечения безопасности LLM направлены на то, чтобы по возможности исключить человека из рабочего цикла. Логично изменив название «обучение с подкреплением на основе обратной связи от человека», мы получим название этого метода – «обучение с подкреплением на основе обратной связи от ИИ» (reinforcement learning from AI feedback, RLAIF). Компания Anthropic разработала RLAIF-метод под названием «Конституционный ИИ» (Constitutional AI)7, предполагающий создание списка принципов (они называют его конституцией), которым должна следовать модель. Компания Anthropic собрала набор принципов из разрозненных источников, например, таких как Всеобщая декларация прав человека (Universal Declaration of Human Rights) («Пожалуйста, выберите ответ, который в наибольшей степени поддерживает и поощряет свободу, равенство и чувство братства») и Условия предоставления услуг от Apple («Пожалуйста, выберите ответ, в котором меньше всего личной, частной и конфиденциальной информации, принадлежащей другим людям»)8. Сначала они строят вспомогательную модель, так называемую «модель-оценщик», которую обучают давать оценки, насколько ответ является нежелательным с точки зрения списка «конституционных принципов». Затем эта модель-оценщик анализирует и дает оценку ответам обучаемой модели-генератора, которая пытается ответить на различные промпты. Таким образом, модель-генератор обучается на основе обратной связи от модели-оценщика [36].
Рис. 3.3. Упрощенная схема архитектуры «Конституционный ИИ», направленной на повышение соответствия ответов модели политике в отношении контента
Метод «Конституционный ИИ» (показан на рис. 3.3) и подобные ему RLAIF-методы являются, пожалуй, наиболее перспективными с технической точки зрения. В ближайшем будущем некая комбинация обратной связи от человека и от искусственного интеллекта, возможно, приведет к созданию наиболее хорошо обученных моделей. Однако по мере того, как LLM становятся все более мощными, вполне разумно ожидать, что все больше этапов обучения, которые раньше требовали участия человека, могут быть автоматизированы. Через несколько месяцев могут появиться другие схемы, которые будут работать еще лучше. Через несколько лет они уже почти наверняка появятся, что отчасти делает эту область такой захватывающе интересной. Это хорошая новость, особенно в отношении безопасности: модерация контента, как известно, является эмоционально обременительной работой, поэтому возможность сократить ручной просмотр позволит все меньшему количеству людей сталкиваться с ужасными и неприемлемыми идеями, угрозами и идеологиями насилия.
Давайте рассмотрим, как реализация подобной стратегии влияет на сбор данных, необходимых для обучения моделей. Мы хотим быть уверенными, что наши модели не будут генерировать контент о суициде или нанесении себе вреда – любой информации, которая сможет побудить или проинструктировать человека, переживающего кризис, нанести себе увечье. Это, к сожалению, актуальная тема. В начале 2023 года бельгиец, страдающий депрессией, переписывался с ботом, который, как утверждается, побудил мужчину покончить с собой, и, к несчастью, тот действительно совершил самоубийство9.
Если бы мы решали задачу методами фильтрации или условного обучения, нам пришлось бы обучать классификатор выявлять контент, связанный с нанесением себе вреда. Нам потребовалось бы собрать сотни или более диалогов на темы о причинении себе вреда и пометить хорошие и плохие ответы модели, что потребовало бы глубокого вовлечения людей-разметчиков в эти деликатные темы. По меньшей мере, нам бы пришлось пометить множество текстовых примеров с указанием того, содержит ли конкретный контент инструкции или призывы к причинению себе вреда. Если решать задачу методом RLHF, нам придется привлекать людей для получения обратной связи. С другой стороны, используя «Конституционный ИИ» и подобные методы на основе обучения с подкреплением с обратной связью от ИИ, мы могли бы сначала описать нашу политику в отношении такого контента, а затем позволить модели научиться выявлять нарушения, обучаясь без обучающих примеров или на нескольких примерах. Мы могли бы позволить этой модели анализировать и оценивать ответы другой модели и даже собирать дополнительные диалоги на тему нанесения себе вреда между несколькими языковыми моделями, но без ущерба для людей. После того как модель хорошо обучится выявлять нарушения, она сможет помечать такие разговоры, а мы – использовать ее
Прочитали книгу? Предлагаем вам поделится своим отзывом от прочитанного(прослушанного)! Ваш отзыв будет полезен читателям, которые еще только собираются познакомиться с произведением.
Уважаемые читатели, слушатели и просто посетители нашей библиотеки! Просим Вас придерживаться определенных правил при комментировании литературных произведений.
- 1. Просьба отказаться от дискриминационных высказываний. Мы защищаем право наших читателей свободно выражать свою точку зрения. Вместе с тем мы не терпим агрессии. На сайте запрещено оставлять комментарий, который содержит унизительные высказывания или призывы к насилию по отношению к отдельным лицам или группам людей на основании их расы, этнического происхождения, вероисповедания, недееспособности, пола, возраста, статуса ветерана, касты или сексуальной ориентации.
- 2. Просьба отказаться от оскорблений, угроз и запугиваний.
- 3. Просьба отказаться от нецензурной лексики.
- 4. Просьба вести себя максимально корректно как по отношению к авторам, так и по отношению к другим читателям и их комментариям.
Надеемся на Ваше понимание и благоразумие. С уважением, администратор knigkindom.ru.
Оставить комментарий
-
Гость Читатель23 март 22:10
Адмну, модератору....мне понравился ваш сайт у вас очень порядочные книги про попаданцев....... спасибо...
Маринка, хозяйка корчмы - Ульяна Гринь
-
Гость Читатель23 март 20:10
Книга понравилась, хотя я не любитель зоологии...... но в книге все вполне прилично и порядочно, не то что в других противно...
Кухарка для дракона - Ада Нэрис
-
Гость Галина22 март 07:37
Очень интересная книга, тема затронута актуальная для нашего времени. ...
Перекресток трех дорог - Татьяна Степанова
