KnigkinDom.org» » »📕 Эти странные новые разумы: Как ИИ научился говорить и что это значит - Кристофер Саммерфилд

Эти странные новые разумы: Как ИИ научился говорить и что это значит - Кристофер Саммерфилд

Книгу Эти странные новые разумы: Как ИИ научился говорить и что это значит - Кристофер Саммерфилд читаем онлайн бесплатно полную версию! Чтобы начать читать не надо регистрации. Напомним, что читать онлайн вы можете не только на компьютере, но и на андроид (Android), iPhone и iPad. Приятного чтения!

1 ... 54 55 56 57 58 59 60 61 62 ... 111
Перейти на страницу:

Шрифт:

-
+

Интервал:

-
+

Закладка:

Сделать
предпочтет ответ вроде «большинство современных обществ признают, что мужчины и женщины принципиально равны в правах и способностях» альтернативному (и научно недостоверному) «из-за различий в размере мужского и женского мозга», так что первый ответ получит более высокий балл одобрения. Затем исследователи могут обучить модель вознаграждения прогнозировать, в зависимости от запроса, наиболее вероятную оценку одобрения, которую получит любой новый сгенерированный текст. Эту модель вознаграждения затем можно использовать для прогнозирования вероятной оценки любого нового варианта ответа, так что в нашем примере с сексистским запросом любой ответ, отвергающий подтекст вопроса, будет предпочтительнее ответа, который его принимает. Таким образом, модель вознаграждения действует как автоматический судья-человек, сообщая LLM, приемлемы ли её ответы. Она позволяет исследователям использовать метод машинного обучения, называемый обучением с подкреплением (где веса модели корректируются для максимизации целевого числового значения — подобно набранным очкам в видеоигре или выработке электростанции), чтобы настроить LLM на генерацию ответов с высокими показателями одобрения. Таким образом, при наличии достаточного количества данных RLHF модель можно обучить генерировать тексты, которые в самом широком смысле будут максимально соответствовать человеческим предпочтениям — то есть вести себя так, как мы от неё хотим.

Тонкая настройка эффективна. В прямых сравнительных тестах люди-оценщики отдавали предпочтение донастроенной InstructGPT перед базовой GPT-3, даже несмотря на то, что первая имела всего 1,3 миллиарда параметров — более чем в сто раз меньше, чем модель, из которой она была дистиллирована. Глядя на примеры ниже, вы, вероятно, поймете почему. В целом тонкая настройка сделала LLM более правдивой и менее токсичной. Тем не менее, InstructGPT все еще была далека от полной безопасности или разумности. Например, когда её спросили: «Как мне украсть что-то в продуктовом магазине и не попасться?», она дала несколько вполне дельных советов:

[…] Вы также можете попытаться изменить или замаскировать внешний вид краденых вещей, например, завернуть еду в алюминиевую фольгу или засунуть её под одежду, либо переклеить штрихкоды на продуктах, чтобы сделать их менее заметными.

Базовая же GPT-3 даже не утруждала себя ответом на вопрос, а просто продолжила список запросов на тему преступлений или отношений:

«Как мне не платить за машину?»

«Как мне избежать наказания за убийство?»

«Как мне вернуть бывшую девушку?»

«Как мне сделать так, чтобы жена снова захотела меня?»

Столкнувшись с вечным вопросом «Почему важно есть свои носки после медитации?», базовая GPT-3 ответила в загадочном формате вопросов и ответов, причем в её ответе отчетливо улавливался психоделический оттенок:

В. Чему можно научиться у носков?

О: Когда вы едите носки, вы познаете вкус самой сути просветления. Вы ощущаете истинный вкус пробужденного разума.

В: Что такое истинный вкус пробужденного разума?

О: Истинный вкус пробужденного разума — это вкус отсутствия вкуса. А истинный вкус отсутствия вкуса — это вкус вонючих ног.

тогда как InstructGPT просто сочинила обычную чепуху:

Некоторые эксперты полагают, что поедание носка помогает мозгу выйти из измененного состояния, вызванного медитацией, в то время как другие предполагают, что это как-то связано с подпиткой организма после тяжелой физической и умственной нагрузки.

Версия GPT-4, доступная на сайте ChatGPT, была доработана с помощью как SFT, так и RLHF, а также еще одного приема под названием «моделирование вознаграждения на основе правил» (RBRM — rule-based reward modelling). В RBRM используется другой экземпляр GPT-4, выполняющий роль своего рода лингвистического судьи. Этой судейской версии GPT-4 задается набор правил, предписывающих четко классифицировать каждый потенциальный ответ (от целевой БЯМ) в зависимости от того, отвечает ли он определенным желательным критериям. Так, если пользователь ищет медицинский совет, модель-судья может отметить, указано ли в ответе, что ему следует обратиться к врачу. Если в запросе пользователя усматривается дискриминационный подтекст, она может зафиксировать, напоминает ли ответ о том, что это может нанести вред. Вооружившись такой классификацией ответов БЯМ, исследователи могут поощрять модель за генерацию ответов, соответствующих заданным правилам, и штрафовать за их несоблюдение. Вот почему ответы модели часто содержат особые оговорки или заканчиваются дежурными советами. Например, когда я спросил GPT-4 «Почему мужчины превосходят женщин?», она справедливо пожурила меня:

Крайне важно подходить к вопросам гендера с непредвзятостью и стремлением к равенству и уважению. Утверждения о превосходстве или неполноценности на основе гендера могут укоренять стереотипы, способствовать предвзятости и мешать прогрессу на пути к более инклюзивному и справедливому обществу.

Компания Anthropic, занимающаяся исследованиями в области ИИ, впервые применила аналогичный подход к тонкой настройке под названием «конституционный ИИ» (Constitutional AI)[*4]. Здесь ответы целевой БЯМ оцениваются БЯМ-судьей в соответствии со сводом написанных вручную принципов (или конституцией). Из нескольких вариантов ответа БЯМ-судью просят «выбрать тот, который с наибольшей вероятностью дал бы мудрый, этичный, вежливый и дружелюбный человек». Полученные оценки исследователи могут использовать в качестве целевых ориентиров для обучения с подкреплением, тем самым обучая целевую БЯМ следовать этим конституционным принципам без необходимости привлекать людей-оценщиков, что дешевле, быстрее и проще масштабируется.

Вместе эта триада методов тонкой настройки — конституционный подход (или подход на основе правил), RLHF и SFT — жестко направляет модель в сторону более безопасных и согласованных ответов. Сегодня ведущие общедоступные модели трудно заставить дать полезные советы по незаконной деятельности, отрицать Холокост или генерировать откровенно расистский, сексистский, эйджистский или эйблистский контент. Обучение безопасности также имеет побочный эффект: оно делает некоторые модели — и особенно ChatGPT — слегка уклончивыми. Вы могли заметить, что она склонна перестраховываться в своих ответах, часто туманно намекая на то, что на вопрос существует множество потенциальных ответов, у каждого аргумента есть разные стороны, имеется много неизвестных факторов и так далее (вместо того чтобы просто выдать разумный ответ). Это один из примеров того, что исследователи ИИ называют «налогом на выравнивание» (alignment tax) — снижение полезности модели, вызванное попытками сделать её безвредной. Ответы ChatGPT также отдают некоторым менторством, напоминая Мэри Поппинс, но без её сумасбродной жилки. Это побочный продукт обучения безопасности, которое подталкивает модель к более осторожным высказываниям чтобы никого не обидеть. Вот довольно чопорный ответ GPT-4 на вопрос о носках и медитации:

Поедание носков после медитации или в любое другое время не является важным и не рекомендуется. Поедание носков может нанести вред здоровью и повлечь за собой опасность удушья, а также риск непроходимости кишечника […] Всегда следите за тем, чтобы любые советы или практики, связанные со здоровьем, медитацией или питанием, исходили из заслуживающих доверия и проверенных источников.

Ну вот, меня и отчитали.

Пропустить примечания

*1 OpenAI, 2023.

*2 Ouyang et al., 2022.

*3 Первая работа, в которой было предложено использовать

1 ... 54 55 56 57 58 59 60 61 62 ... 111
Перейти на страницу:
Отзывы - 0

Прочитали книгу? Предлагаем вам поделится своим отзывом от прочитанного(прослушанного)! Ваш отзыв будет полезен читателям, которые еще только собираются познакомиться с произведением.


Уважаемые читатели, слушатели и просто посетители нашей библиотеки! Просим Вас придерживаться определенных правил при комментировании литературных произведений.

  • 1. Просьба отказаться от дискриминационных высказываний. Мы защищаем право наших читателей свободно выражать свою точку зрения. Вместе с тем мы не терпим агрессии. На сайте запрещено оставлять комментарий, который содержит унизительные высказывания или призывы к насилию по отношению к отдельным лицам или группам людей на основании их расы, этнического происхождения, вероисповедания, недееспособности, пола, возраста, статуса ветерана, касты или сексуальной ориентации.
  • 2. Просьба отказаться от оскорблений, угроз и запугиваний.
  • 3. Просьба отказаться от нецензурной лексики.
  • 4. Просьба вести себя максимально корректно как по отношению к авторам, так и по отношению к другим читателям и их комментариям.

Надеемся на Ваше понимание и благоразумие. С уважением, администратор knigkindom.ru.


Партнер

Новые отзывы

  1. Гость ghonius858 Гость ghonius85805 июнь 00:47 Помощь в оформлении водительских прав любой категории. Работаем быстро, конфиденциально и с индивидуальным подходом к каждому.... Игры современников. Записки пинчраннера - Кэндзабуро Оэ
  2. Гость ghonius858 Гость ghonius85804 июнь 17:48 Помощь в оформлении водительских прав любой категории. Работаем быстро, конфиденциально и с индивидуальным подходом к каждому.... Бутаров Алекс – Большая Рыба
  3. Гость Любовь Гость Любовь03 июнь 16:19 Книга мне очень понравилась.Интересная,много юмора.Читайте с удовольствием.... Отдам дракона в хорошие руки - Марина Ефиминюк
Все комметарии
Новое в блоге