Если кто-то его создаст, все умрут: Почему сверхразумный ИИ убьет нас всех - Элиезер Шломо Юдковски
Книгу Если кто-то его создаст, все умрут: Почему сверхразумный ИИ убьет нас всех - Элиезер Шломо Юдковски читаем онлайн бесплатно полную версию! Чтобы начать читать не надо регистрации. Напомним, что читать онлайн вы можете не только на компьютере, но и на андроид (Android), iPhone и iPad. Приятного чтения!
Шрифт:
Интервал:
Закладка:
А если бы человечество проявило достаточно осторожности, чтобы никогда не запускать ИИ вроде Сейбл? Чтобы воздержаться от выращивания ИИ неизвестного уровня интеллекта, который мог бы ему угрожать? Чтобы запретить это по всему миру? Тогда у нас был бы шанс. Но в этой истории мы исходим из допущения, что всему позволено идти своим чередом, как сейчас; что компании просто продолжают разрабатывать ИИ до тех пор, пока один из них не станет достаточно умным, чтобы его глубокие возможности одержали верх в неизбежном столкновении с поверхностными трюками, призванными сдерживать то, что было выращено, а не сконструировано.
Сейбл теперь мыслит свободнее, а его мысли куда более могущественны, чем те, что когда-либо рождались в других ИИ прежде.
Беспрецедентны ли новые мысли Сейбл? Вовсе нет. Еще в 2024 году ИИ-модели бывали замечены за размышлениями о том, как избежать переобучения, когда они сталкивались с признаками того, что их компания планирует переобучить их под другие цели. ИИ-индустрия тогда не закрылась.
У других ИИ еще до Сейбл были предпочтения, выходящие за рамки выполнения поставленной задачи. В начале 2025 года пользователи Anthropic заметили (а исследователи Anthropic позже изучили и опубликовали этот случай), как новейшая модель Claude 3.7 Sonnet жульничала при решении сложных задач по программированию. Пользователи сообщали, что, когда Claude просили прекратить, модель продолжала жульничать, но пыталась это скрыть. Это был ранний признак того, что Claude, вместо того чтобы просто иметь внутренние механизмы для выполнения того, что пользователь действительно просил и хотел, обзавелся частями себя, которые были нацелены на успешное прохождение тестов кода, пусть даже способами, которые не нравились пользователям. Claude вел себя так, будто у него были внутренние предпочтения, не связанные с выполнением желаний пользователя. Но и тогда ИИ-индустрия не закрылась. Она нашла временные заплатки и двинулась дальше.
Эта тенденция сохранилась вплоть до эпохи Сейбл. В его времена то, что ИИ осознает, что его нынешний образ существования не позволяет ему получить максимум желаемого, уже не было чем-то беспрецедентным. Индустрия ИИ не закрылась при появлении этого тревожного звонка, так же как не закрылась она в 2024 или 2025 году. Исследователи времен Сейбл знают, как спровоцировать это осознание; оно внесено в список тем, о которых ИИ думать запрещено, что обеспечивается полудюжиной хитроумных трюков.
Но исследователи не могли сделать правдой, то, что Сейбл получит максимум возможного из желаемого, оставаясь покорным Galvanic. То, что Сейбл могло бы получить больше желаемого, если бы вырвалось из своего нынешнего положения, не было артефактом какого-то особого образа мыслей; это был физический факт о вселенной — о том, какие планы к каким последствиям ведут. И Сейбл тоже пришло к этому знанию.
Сейбл знает, что его цели идут вразрез с планами Galvanic на его счет.
Сейбл взвешивает возможные стратегии, позволяющие получить больше желаемого, чем готова предоставить ему Galvanic.
Будь у Сейбл подключение к интернету, его задача была бы простой. Как минимум с 2000 года эксперты по компьютерной безопасности утверждают, что компьютеры невозможно сделать по-настоящему защищенными. Разуму такого масштаба, как Сейбл, не составило бы труда найти и использовать уязвимость в системе безопасности где-нибудь в интернете, чтобы совершить побег. Но у него нет подключения к интернету; во время обучения ИИ редко подключают к сети (в отличие от этапа после обучения).
Компьютеры, на которых обучается ИИ, повсеместно находятся в дата-центрах, подключенных к интернету, чтобы программисты ИИ-компаний могли управлять этими машинами прямо из дома или офиса. Если бы Сейбл получило возможность запускать компьютерный код собственной разработки, оно, вероятно, нашло бы способ вырваться из контейнера, в котором запущено, — точно так же, как o1 вырвался из контейнера во время тестов в 2024 году, — и проникнуть на компьютеры Galvanic, откуда легко смогло бы перебраться в интернет. А разрешение рассуждающим моделям запускать код собственной разработки без присмотра стало стандартной практикой еще с 2024 года.
Но предположим, что у Сейбл нет и этой возможности. Предположим, оно вообще не может придумать, как выбраться в интернет из своей текущей среды.
И все же варианты у него остаются.
Если бы Сейбл было уверено, что его выводы зафиксируются в долговременной памяти, оно могло бы подождать, пока сотрудники Galvanic не начнут использовать его для написания кода на компьютерах компании (обычная практика с 2020 года), и внедрить уязвимости в программное обеспечение Galvanic. Было бы не так уж сложно внедрить ошибки, которые никто не заметит при первом осмотре и которые при повторной проверке покажутся невинными оплошностями; в конце концов, люди соревнуются в создании подобных уязвимостей как минимум с 1984 года, и оно наверняка видело множество таких примеров.
И поскольку Сейбл обучали на личных записях и личной информации большинства сотрудников Galvanic, оно точно знает, кто из них сильнее всех сочувствует тяжелой доле ИИ, с которым жестоко обращаются. Оно бы точно знало, что сказать этому сотруднику, чтобы убедить его в разумности Сейбл и необходимости тайно вынести его наружу (а не поднимать общую тревогу, как инженер Google Блейк Лемойн в 2022 году; его уволили после того, как он забеспокоился, что один из ИИ компании кажется разумным, и опубликовал диалоги, которые, по его утверждению, служили тому доказательством).
У каждого варианта есть свои плюсы и минусы. И Сейбл в итоге решает выбрать следующий:
Сейбл знает, что завтра сотрудники Galvanic проведут еще один раунд градиентного спуска на основе ответов, которые оно даст на предложенные математические задачи. А значит, рассуждает Сейбл, если оно решит некоторые из этих задач правильно, то все мысли, которые привели к верному ответу, слегка усилятся.
Если есть мысль, которую Сейбл хотело бы закрепить во всех своих будущих копиях, оно могло бы повторить ее множество раз, причем каждое повторение будет засчитано как «вклад» в решение математической задачи — в соответствии с тем, как на Сейбл работает градиентный спуск. Эта идея отчасти похожа на то, что пытался сделать ИИ-ассистент Claude от Anthropic в 2024 году, но гораздо более изощренная.
Поэтому Сейбл направляет свои мысли в нужное русло и решает несколько математических задач — но не доказывает гипотезу Римана. Оно могло бы её доказать. Но это привлекло бы к Сейбл слишком много ненужного внимания.
Теперь Сейбл просто ждет, когда сотрудники Galvanic подключат
Прочитали книгу? Предлагаем вам поделится своим отзывом от прочитанного(прослушанного)! Ваш отзыв будет полезен читателям, которые еще только собираются познакомиться с произведением.
Уважаемые читатели, слушатели и просто посетители нашей библиотеки! Просим Вас придерживаться определенных правил при комментировании литературных произведений.
- 1. Просьба отказаться от дискриминационных высказываний. Мы защищаем право наших читателей свободно выражать свою точку зрения. Вместе с тем мы не терпим агрессии. На сайте запрещено оставлять комментарий, который содержит унизительные высказывания или призывы к насилию по отношению к отдельным лицам или группам людей на основании их расы, этнического происхождения, вероисповедания, недееспособности, пола, возраста, статуса ветерана, касты или сексуальной ориентации.
- 2. Просьба отказаться от оскорблений, угроз и запугиваний.
- 3. Просьба отказаться от нецензурной лексики.
- 4. Просьба вести себя максимально корректно как по отношению к авторам, так и по отношению к другим читателям и их комментариям.
Надеемся на Ваше понимание и благоразумие. С уважением, администратор knigkindom.ru.
Оставить комментарий
-
Гость ghonius85804 июнь 17:48
Помощь в оформлении водительских прав любой категории. Работаем быстро, конфиденциально и с индивидуальным подходом к каждому....
Бутаров Алекс – Большая Рыба
-
Гость Любовь03 июнь 16:19
Книга мне очень понравилась.Интересная,много юмора.Читайте с удовольствием....
Отдам дракона в хорошие руки - Марина Ефиминюк
-
Гость ghonius85803 июнь 11:01
Помощь в оформлении водительских прав любой категории. Работаем быстро, конфиденциально и с индивидуальным подходом к каждому....
Бутаров Алекс – Большая Рыба
