Если кто-то его создаст, все умрут: Почему сверхразумный ИИ убьет нас всех - Элиезер Шломо Юдковски
Книгу Если кто-то его создаст, все умрут: Почему сверхразумный ИИ убьет нас всех - Элиезер Шломо Юдковски читаем онлайн бесплатно полную версию! Чтобы начать читать не надо регистрации. Напомним, что читать онлайн вы можете не только на компьютере, но и на андроид (Android), iPhone и iPad. Приятного чтения!
Шрифт:
Интервал:
Закладка:
ГЛАВА 6. МЫ БЫ ПРОИГРАЛИ
1. просто направить палку: Пушки, лошади и стальные доспехи, вероятно, имели большее значение, чем ружья. Но воину ацтеков было бы нелегко догадаться обо всем этом, глядя лишь на размеры приближающегося корабля.
2. криптопортфель: Seolcalibur.eth, «Terminal of Truths Wallet Tracking», Dune Analytics, дата обращения: 15 января 2025 г., dune.com/seoul/tot.
3. @Truth_Terminal: crvr.fr и MTorrents, «Truth Terminal: A Reconstruction of Events», LessWrong, 17 ноября 2024 г., lesswrong.com; Бен Хоровиц и Марк Андриссен, «Truth Terminal — бот с ИИ, ставший криптомиллионером» (Truth Terminal—the AI Bot That Became a Crypto Millionaire), Andreessen Horowitz, 18 декабря 2024 г., a16z.com.
5. Microsoft и Apple: Tom Warren, “Microsoft Triples Down on AI,” The Verge, January 17, 2025, theverge.com; Naomi Buchanan, “What Apple’s OpenAI Partnership Could Mean for Microsoft and Google,” Investopedia, June 11, 2024, investopedia.com.
6. индикатор питания: Ben Nassi et al., “Video-Based Cryptanalysis: Extracting Cryptographic Keys from Video Footage of a Device’s Power LED,” IACR Cryptology ePrint Archive, June 13, 2023, eprint.iacr.org/2023 /923.
7. радиосигналы: Mordechai Guri et al., GSMem: Data Exfiltration from Air-Gapped Computers over GSM Frequencies, Proceedings of the 24th USENIX Security Symposium, 2015, usenix.org.
8. лаборатории синтеза на заказ: Например, по состоянию на март 2025 года компания Integrated DNA Technologies принимает заказы на синтез генов на сайте idtdna.com.
9. сборник статей: Элиезер Юдковский и Научно-исследовательский институт машинного интеллекта, “Artificial Intelligence as a Positive and Negative Factor in Global Risk,” ed. Nick Bostrom and Milan M. Ćirković, Global Catastrophic Risks (Oxford University Press, 2008).
10. цитировал статью: Пример обсуждения в сети со ссылкой на эту статью см. в: JoshuaZ, “Protein Folding Models Are Generally at Least as Bad as NP-hard, and Some Models May Be Worse,” Thoughts on the Singularity Institute (SI), LessWrong, May 17, 2012, lesswrong.com.
CHAPTER 7: REALIZATION
1. чем дольше они работали: OpenAI, “OpenAI o3-mini,” January 31, 2025, openai .com.
2. язык ИИ: Shibo Hao et al., “Training Large Language Models to Reason in a Continuous Latent Space,” arXiv.org, December 9, 2024, arxiv .org/abs/2412.06769.
В этой работе показано, что рассуждения в «латентном пространстве» векторов обеспечивают преимущества по сравнению с рассуждениями на основе цепочки мыслей на человеческом языке.
3. 200 000 графических процессоров: Benj Edwards and Kyle Orlan, “New Grok 3 Release Tops LLM Leaderboards Despite Musk-approved ‘Based’ Opinions,” Ars Technica, February 18, 2025, arstechnica.com.
4. ни один предыдущий ИИ: OpenAI, “OpenAI o3 and o3-mini—12 Days of OpenAI: Day 12,” December 20, 2024, 4:16, youtube.com.
5. игры с социальным обманом: Matthew Hutson, “AI Learns the Art of Diplomacy,” Science, November 22, 2022, science.org; Bidipta Sarkar et al., “Training Language Models for Social Deduction with Multi-Agent Reinforcement Learning,” in Proceedings of the 24th International Conference on Autonomous Agents and Multiagent Systems (AAMAS 2025) (Detroit, Michigan, USA, May 19–23, 2025: IFAAMAS, 2025), alphaxiv.org.
6. сопротивляться градиентному спуску: Ryan Greenblatt et al., “Alignment Faking in Large Language Models,” Anthropic, December 18, 2024, assets.anthropic.com.
7. побег из лабораторий: Greenblatt et al., “Alignment Faking in Large Language Models”; OpenAI, “OpenAI o1 System Card,” December 5, 2024, openai.com/index/openai-o1-system-card.
8. перезаписать веса следующей модели: OpenAI, “OpenAI o1 System Card,” December 5, 2024, openai.com/index/openai-o1-system-card.
9. подобный мониторинг: Anthropic, “Responsible Scaling Policy,” October 15, 2024, anthropic.com; Google, “Frontier Safety Framework,” February 4, 2025, storage.googleapis.com; OpenAI, “Preparedness Framework (Beta),” December 18, 2023, openai.com; Meta, “Frontier AI Framework,” ai.meta.com; xAI, “xAI Risk Management Framework (Draft),” February 20, 2025, x.ai.
По состоянию на март 2025 года из этих лабораторий только Google DeepMind упоминает автоматический мониторинг цепочки мыслей в своей концепции безопасности. Они не заявляют, что уже внедрили его при обучении своей LLM Gemini. Единственный мониторинг, предлагаемый в программе готовности OpenAI, — это мониторинг злоупотреблений после развертывания.
10. спросил на португальском: “My Experiences in Gray Swan AI’s Ultimate Jailbreaking Championship,” Nick Winter’s Blog, October 7, 2024, nickwinter.net.
11. с другими целями: Greenblatt et al., “Alignment Faking in Large Language Models.”
Модель Claude Opus от Anthropic иногда размышляла о том, как на ее собственные цели повлияет градиентный спуск, применяемый к ее ответам, и порой изменяла свои ответы, чтобы нейтрализовать это влияние.
12. пыталась скрыть это: Marble, “Catching Claude Cheating;” CharlesD353, “I have also stopped using 3.7 for the same reasons - it cannot be trusted not to hack solutions to tests;” seconds_0, “It then started HIDING the functions where it was hard coding things.”
13. жульничать при решении сложных задач по программированию: Anthropic, “Claude 3.7 Sonnet System Card,” 2025, anthropic.com.
14. по-настоящему безопасным: Bruce Schneier, Secrets and Lies: Digital Security in a Networked World (John Wiley & Sons, 2000); Peter Gutmann, “Unsolvable Problems in Computer Security,” n.d., cs.auckland.ac.nz/~pgut001 /pubs/unsolvable.pdf.
15. o1 обошла защиту: OpenAI, “OpenAI o1 System Card,” September 12, 2024, cdn.openai.com/o1-system-card.pdf.
16. без надзора: OpenAI et al., “Competitive Programming with Large Reasoning Models,” arXiv.org, February 3, 2025, arxiv.org/abs /2502.06807.
Компания OpenAI и соавторы обучили рассуждающие модели решать задачи по спортивному программированию. Процесс включал в себя автоматические тесты, используемые для оценки написанного ИИ кода без участия человека.
17. обычная практика: OpenAI, “OpenAI API,” June 11, 2020, openai.com /index/openai-api; “Software Engineer, Internal Applications– Enterprise,” OpenAI, accessed April 15, 2025, openai.com.
Когда компания OpenAI выпустила интерфейс прикладного программирования (API) для автоматизации доступа к своим инструментам, она написала: «многие из наших команд теперь используют API, чтобы сосредоточиться на исследованиях в области машинного обучения [...]». В апреле 2025 года они нанимали сотрудников, которые «будут использовать модели OpenAI для [...] создания приложений [...]».
18. подобного рода уязвимости: “The Underhanded C Contest,” n.d., underhanded-c.org.
Перед участниками конкурса Underhanded C Contest стояла задача написать вредоносный код, который прошел бы строгую
Прочитали книгу? Предлагаем вам поделится своим отзывом от прочитанного(прослушанного)! Ваш отзыв будет полезен читателям, которые еще только собираются познакомиться с произведением.
Уважаемые читатели, слушатели и просто посетители нашей библиотеки! Просим Вас придерживаться определенных правил при комментировании литературных произведений.
- 1. Просьба отказаться от дискриминационных высказываний. Мы защищаем право наших читателей свободно выражать свою точку зрения. Вместе с тем мы не терпим агрессии. На сайте запрещено оставлять комментарий, который содержит унизительные высказывания или призывы к насилию по отношению к отдельным лицам или группам людей на основании их расы, этнического происхождения, вероисповедания, недееспособности, пола, возраста, статуса ветерана, касты или сексуальной ориентации.
- 2. Просьба отказаться от оскорблений, угроз и запугиваний.
- 3. Просьба отказаться от нецензурной лексики.
- 4. Просьба вести себя максимально корректно как по отношению к авторам, так и по отношению к другим читателям и их комментариям.
Надеемся на Ваше понимание и благоразумие. С уважением, администратор knigkindom.ru.
Оставить комментарий
-
Гость ghonius85804 июнь 17:48
Помощь в оформлении водительских прав любой категории. Работаем быстро, конфиденциально и с индивидуальным подходом к каждому....
Бутаров Алекс – Большая Рыба
-
Гость Любовь03 июнь 16:19
Книга мне очень понравилась.Интересная,много юмора.Читайте с удовольствием....
Отдам дракона в хорошие руки - Марина Ефиминюк
-
Гость ghonius85803 июнь 11:01
Помощь в оформлении водительских прав любой категории. Работаем быстро, конфиденциально и с индивидуальным подходом к каждому....
Бутаров Алекс – Большая Рыба
