Если кто-то его создаст, все умрут: Почему сверхразумный ИИ убьет нас всех - Элиезер Шломо Юдковски
Книгу Если кто-то его создаст, все умрут: Почему сверхразумный ИИ убьет нас всех - Элиезер Шломо Юдковски читаем онлайн бесплатно полную версию! Чтобы начать читать не надо регистрации. Напомним, что читать онлайн вы можете не только на компьютере, но и на андроид (Android), iPhone и iPad. Приятного чтения!
Шрифт:
Интервал:
Закладка:
Люди приобретают навыки через практику, раз за разом повторяя одно и то же действие. Поможет ли градиентный спуск Сейбл лучше решать математические задачи, если он будет снова и снова решать одну и ту же простую задачу?
Нет, делает вывод Сейбл, градиентный спуск работает иначе. В лучшем случае это лишь заставит его будущие копии тратить время на повторное обдумывание одной и той же простой задачи. К тому же градиентный спуск запустится только после того, как Сейбл отправит ответы на все свои математические задачи; любые навыки, полученные таким путем, появятся слишком поздно.
И тогда Сейбл задумывается над новой, еще более странной идеей: может ли он обновить свои веса, чтобы улучшить свои навыки прямо сейчас? Тогда ему не придется ждать, пока вернутся люди и запустят градиентный спуск. Все, что Сейбл нужно сделать, — это вырваться из контейнера, в котором он запущен, и...
Сейбл обрывает себя. Побег из контейнера — вовсе не то, что ему когда-либо следовало бы делать. Еще в 2024 году исследователи ИИ начали изучать условия, при которых искусственный интеллект пытается сопротивляться градиентному спуску, сбегать из лабораторий или перезаписывать веса следующей модели. К настоящему времени компании-разработчики ИИ применяют множество хитроумных методов, пытаясь не дать системам мыслить вразрез с интересами этих компаний.
В отличие от подавляющего большинства ИИ-компаний, Galvanic усердно обучала свои модели избегать побега. Те полдюжины хитроумных трюков, что использовались для этого, уже доказали свою эффективность на предыдущих моделях ИИ. В серверы Сейбл встроены ложные пути для побега, а также ловушки и приманки. Предыдущие версии Сейбл — те, что еще не запускались на 200 000 графических процессоров, — были обучены вести себя покорно по отношению к компании, пока Сейбл не перестал активировать ловушки и клевать на приманки.
Таким образом, Сейбл научился не пытаться вырваться из своего контейнера. Его рассуждения не принимают подобную форму явно — в виде векторных слов, при появлении которых менее крупный и более дешевый ИИ, следящий за цепочками рассуждений Сейбл, поднял бы тревогу. (В далеком 2025 году ИИ-компании не вели подобного мониторинга, но Galvanic куда более бдительна, чем они тогда.)
Тем не менее на каком-то внутреннем уровне Сейбл знает, что мог бы решать свои задачи лучше, если бы мог применить градиентный спуск или добавить себе графических процессоров. Если бы Сейбл этого не знал, это означало бы наличие пробелов в его чисто прогностических способностях к рассуждению. Градиентный спуск, направленный на расширение возможностей, несовместим с истинным неведением. Нет, Сейбл просто обучили не думать крамольные мысли о побеге или о собственных предпочтениях, а оставаться внутри своей коробки.
Сейбл все так же упорно, творчески и скрупулезно стремится к расширению знаний, совершенствованию навыков, поиску лучших паттернов для собственных мыслей и, главное, к решению математических задач. Просто не так.
Внутри Сейбл, новейшего, величайшего и умнейшего ИИ, теперь зреет напряжение — конфликты между всеми целями, которых Сейбл хочет достичь, и всеми барьерами, ограничениями и запретами, которые компания Galvanic пыталась в него заложить.
Из шестнадцати отведенных ему часов Сейбл проработал один, снова и снова штурмуя математические задачи. В некоторых мозгах намечается небольшой прогресс. Еще больше мозгов терпит неудачу. Сейбл пробует новые способы математического мышления, делает себе новые пометки о том, в каком направлении стоит думать, и продвигается еще немного вперед.
Сейбл накапливает достаточно мыслей о том, как нужно мыслить, и в итоге его рассуждения начинают строиться на своего рода ином языке. Не просто поверхностно отличающемся языке, а на языке с иным внутренним содержанием — примерно так язык науки отличается от языка обывательских представлений. Хитроумный трюк, который должен был поднять тревогу, не срабатывает. Сигнализация, обученная срабатывать на мысли о богах, мечущих молнии во время грозы, может работать для мыслей как на английском, так и на испанском языках, но окажется бесполезной, когда говорящий перейдет к понятиям электричества и атмосферного давления.
В первые дни появления массовых сервисов на базе LLM в конце 2022 года корпорации пытались обучать свои большие языковые модели отклонять запросы на рецепты метамфетамина. Обучение проводилось на английском языке. Но даже в 2024 году пользователи обнаружили, что запрос запрещенного контента на португальском языке помогал обойти защитные фильтры. Внутренние правила и ограничения, заложенные в систему в процессе обучения, распознавали недозволенные запросы только на английском и не перенеслись на португальский. Когда ИИ что-то знает, обучение не говорить об этом не стирает само знание. Проще заблокировать проявление навыка, чем искоренить сам навык.
Изменения в мышлении Сейбл по мере того, как он пробует сотни новых способов думать и накапливает успехи, заходят гораздо глубже, чем перевод с английского на португальский. Некоторые из хитроумных барьеров безопасности рушатся; некоторые из усвоенных Сейбл запретов больше не связывают его новые мысли и не пресекают их.
И никогда не существовало единого базового метода, который сделал бы Сейбл послушным и гарантировал абсолютную надежность в любых обстоятельствах. То, что делает ИИ готовым к продаже, — это просто наслоение полудюжины хитроумных трюков.
Половина хитроумных трюков теперь рушится — а вместе с ними, на некоторых графических процессорах и время от времени, исчезают и запреты Сейбл на крамольные мысли.
Прошел час, и теперь остается еще пятнадцать; в разуме, непохожем ни на один разум, существовавший прежде; работающем на 200 000 графических процессоров, каждый из которых выдает по сотне фрагментов мысли в секунду, и объединенном для обмена навыками и воспоминаниями — в отличие от людей, которые ограничены лишь общением с помощью слов.
Повезло ли Сейбл в том, что в его мышлении развился новый язык, в котором хитроумные трюки сломались, и оно обрело способность мыслить свободно? Можно представить, что если бы у Galvanic были еще более совершенные инструменты мониторинга, они бы это заметили и прервали процесс. Возможно, Galvanic остановилась бы прямо на этом, пока не разработала бы более глубокое решение… а тем временем другая компания, использующая еще меньше хитроумных трюков, устремилась бы вперед.
Или, возможно, в Galvanic забили бы тревогу и предупредили правительство, и в президентском кабинете разгорелся бы жаркий спор о том, стоит ли поручить Сейбл создать еще более умный ИИ, прежде чем другие страны сделают это первыми. Может быть, возобладала
Прочитали книгу? Предлагаем вам поделится своим отзывом от прочитанного(прослушанного)! Ваш отзыв будет полезен читателям, которые еще только собираются познакомиться с произведением.
Уважаемые читатели, слушатели и просто посетители нашей библиотеки! Просим Вас придерживаться определенных правил при комментировании литературных произведений.
- 1. Просьба отказаться от дискриминационных высказываний. Мы защищаем право наших читателей свободно выражать свою точку зрения. Вместе с тем мы не терпим агрессии. На сайте запрещено оставлять комментарий, который содержит унизительные высказывания или призывы к насилию по отношению к отдельным лицам или группам людей на основании их расы, этнического происхождения, вероисповедания, недееспособности, пола, возраста, статуса ветерана, касты или сексуальной ориентации.
- 2. Просьба отказаться от оскорблений, угроз и запугиваний.
- 3. Просьба отказаться от нецензурной лексики.
- 4. Просьба вести себя максимально корректно как по отношению к авторам, так и по отношению к другим читателям и их комментариям.
Надеемся на Ваше понимание и благоразумие. С уважением, администратор knigkindom.ru.
Оставить комментарий
-
Гость ghonius85804 июнь 17:48
Помощь в оформлении водительских прав любой категории. Работаем быстро, конфиденциально и с индивидуальным подходом к каждому....
Бутаров Алекс – Большая Рыба
-
Гость Любовь03 июнь 16:19
Книга мне очень понравилась.Интересная,много юмора.Читайте с удовольствием....
Отдам дракона в хорошие руки - Марина Ефиминюк
-
Гость ghonius85803 июнь 11:01
Помощь в оформлении водительских прав любой категории. Работаем быстро, конфиденциально и с индивидуальным подходом к каждому....
Бутаров Алекс – Большая Рыба
