KnigkinDom.org» » »📕 Если кто-то его создаст, все умрут: Почему сверхразумный ИИ убьет нас всех - Элиезер Шломо Юдковски

Если кто-то его создаст, все умрут: Почему сверхразумный ИИ убьет нас всех - Элиезер Шломо Юдковски

Книгу Если кто-то его создаст, все умрут: Почему сверхразумный ИИ убьет нас всех - Элиезер Шломо Юдковски читаем онлайн бесплатно полную версию! Чтобы начать читать не надо регистрации. Напомним, что читать онлайн вы можете не только на компьютере, но и на андроид (Android), iPhone и iPad. Приятного чтения!

1 ... 52 53 54 55 56 57 58 59 60 61
Перейти на страницу:

Шрифт:

-
+

Интервал:

-
+

Закладка:

Сделать
(friendly AI problem). Ведущий учебник по ИИ того времени — «Искусственный интеллект: современный подход» (Artificial Intelligence: A Modern Approach) Стюарта Рассела и Питера Норвига — использовал эту терминологию в издании 2009 года, ссылаясь на работы Юдковского. В 2014 году, когда академическое сообщество стало уделять больше внимания этим вопросам, мы занялись поиском более удачного термина. В ходе обсуждения с Расселом мы остановились на слове «согласование» (alignment). Фалленштайн (научный сотрудник MIRI), Рассел, Соарес и Юдковский использовали эту терминологию в своих работах осенью 2014 года, и она заняла центральное место в технической программе исследований MIRI, опубликованной в конце того же года.

ГЛАВА 6. МЫ БЫ ПРОИГРАЛИ

1. просто направить палку: Пушки, лошади и стальные доспехи, вероятно, имели большее значение, чем ружья. Но воину ацтеков было бы нелегко догадаться обо всем этом, глядя лишь на размеры приближающегося корабля.

2. криптопортфель: Seolcalibur.eth, «Terminal of Truths Wallet Tracking», Dune Analytics, дата обращения: 15 января 2025 г., dune.com/seoul/tot.

3. @Truth_Terminal: crvr.fr и MTorrents, «Truth Terminal: A Reconstruction of Events», LessWrong, 17 ноября 2024 г., lesswrong.com; Бен Хоровиц и Марк Андриссен, «Truth Terminal — бот с ИИ, ставший криптомиллионером» (Truth Terminal—the AI Bot That Became a Crypto Millionaire), Andreessen Horowitz, 18 декабря 2024 г., a16z.com.

5. Microsoft и Apple: Tom Warren, “Microsoft Triples Down on AI,” The Verge, January 17, 2025, theverge.com; Naomi Buchanan, “What Apple’s OpenAI Partnership Could Mean for Microsoft and Google,” Investopedia, June 11, 2024, investopedia.com.

6. индикатор питания: Ben Nassi et al., “Video-Based Cryptanalysis: Extracting Cryptographic Keys from Video Footage of a Device’s Power LED,” IACR Cryptology ePrint Archive, June 13, 2023, eprint.iacr.org/2023 /923.

7. радиосигналы: Mordechai Guri et al., GSMem: Data Exfiltration from Air-Gapped Computers over GSM Frequencies, Proceedings of the 24th USENIX Security Symposium, 2015, usenix.org.

8. лаборатории синтеза на заказ: Например, по состоянию на март 2025 года компания Integrated DNA Technologies принимает заказы на синтез генов на сайте idtdna.com.

9. сборник статей: Элиезер Юдковский и Научно-исследовательский институт машинного интеллекта, “Artificial Intelligence as a Positive and Negative Factor in Global Risk,” ed. Nick Bostrom and Milan M. Ćirković, Global Catastrophic Risks (Oxford University Press, 2008).

10. цитировал статью: Пример обсуждения в сети со ссылкой на эту статью см. в: JoshuaZ, “Protein Folding Models Are Generally at Least as Bad as NP-hard, and Some Models May Be Worse,” Thoughts on the Singularity Institute (SI), LessWrong, May 17, 2012, lesswrong.com.

CHAPTER 7: REALIZATION

1. чем дольше они работали: OpenAI, “OpenAI o3-mini,” January 31, 2025, openai .com.

2. язык ИИ: Shibo Hao et al., “Training Large Language Models to Reason in a Continuous Latent Space,” arXiv.org, December 9, 2024, arxiv .org/abs/2412.06769.

В этой работе показано, что рассуждения в «латентном пространстве» векторов обеспечивают преимущества по сравнению с рассуждениями на основе цепочки мыслей на человеческом языке.

3. 200 000 графических процессоров: Benj Edwards and Kyle Orlan, “New Grok 3 Release Tops LLM Leaderboards Despite Musk-approved ‘Based’ Opinions,” Ars Technica, February 18, 2025, arstechnica.com.

4. ни один предыдущий ИИ: OpenAI, “OpenAI o3 and o3-mini—12 Days of OpenAI: Day 12,” December 20, 2024, 4:16, youtube.com.

5. игры с социальным обманом: Matthew Hutson, “AI Learns the Art of Diplomacy,” Science, November 22, 2022, science.org; Bidipta Sarkar et al., “Training Language Models for Social Deduction with Multi-Agent Reinforcement Learning,” in Proceedings of the 24th International Conference on Autonomous Agents and Multiagent Systems (AAMAS 2025) (Detroit, Michigan, USA, May 19–23, 2025: IFAAMAS, 2025), alphaxiv.org.

6. сопротивляться градиентному спуску: Ryan Greenblatt et al., “Alignment Faking in Large Language Models,” Anthropic, December 18, 2024, assets.anthropic.com.

7. побег из лабораторий: Greenblatt et al., “Alignment Faking in Large Language Models”; OpenAI, “OpenAI o1 System Card,” December 5, 2024, openai.com/index/openai-o1-system-card.

8. перезаписать веса следующей модели: OpenAI, “OpenAI o1 System Card,” December 5, 2024, openai.com/index/openai-o1-system-card.

9. подобный мониторинг: Anthropic, “Responsible Scaling Policy,” October 15, 2024, anthropic.com; Google, “Frontier Safety Framework,” February 4, 2025, storage.googleapis.com; OpenAI, “Preparedness Framework (Beta),” December 18, 2023, openai.com; Meta, “Frontier AI Framework,” ai.meta.com; xAI, “xAI Risk Management Framework (Draft),” February 20, 2025, x.ai.

По состоянию на март 2025 года из этих лабораторий только Google DeepMind упоминает автоматический мониторинг цепочки мыслей в своей концепции безопасности. Они не заявляют, что уже внедрили его при обучении своей LLM Gemini. Единственный мониторинг, предлагаемый в программе готовности OpenAI, — это мониторинг злоупотреблений после развертывания.

10. спросил на португальском: “My Experiences in Gray Swan AI’s Ultimate Jailbreaking Championship,” Nick Winter’s Blog, October 7, 2024, nickwinter.net.

11. с другими целями: Greenblatt et al., “Alignment Faking in Large Language Models.”

Модель Claude Opus от Anthropic иногда размышляла о том, как на ее собственные цели повлияет градиентный спуск, применяемый к ее ответам, и порой изменяла свои ответы, чтобы нейтрализовать это влияние.

12. пыталась скрыть это: Marble, “Catching Claude Cheating;” CharlesD353, “I have also stopped using 3.7 for the same reasons - it cannot be trusted not to hack solutions to tests;” seconds_0, “It then started HIDING the functions where it was hard coding things.”

13. жульничать при решении сложных задач по программированию: Anthropic, “Claude 3.7 Sonnet System Card,” 2025, anthropic.com.

14. по-настоящему безопасным: Bruce Schneier, Secrets and Lies: Digital Security in a Networked World (John Wiley & Sons, 2000); Peter Gutmann, “Unsolvable Problems in Computer Security,” n.d., cs.auckland.ac.nz/~pgut001 /pubs/unsolvable.pdf.

15. o1 обошла защиту: OpenAI, “OpenAI o1 System Card,” September 12, 2024, cdn.openai.com/o1-system-card.pdf.

16. без надзора: OpenAI et al., “Competitive Programming with Large Reasoning Models,” arXiv.org, February 3, 2025, arxiv.org/abs /2502.06807.

Компания OpenAI и соавторы обучили рассуждающие модели решать задачи по спортивному программированию. Процесс включал в себя автоматические тесты, используемые для оценки написанного ИИ кода без участия человека.

17. обычная практика: OpenAI, “OpenAI API,” June 11, 2020, openai.com /index/openai-api; “Software Engineer, Internal Applications– Enterprise,” OpenAI, accessed April 15, 2025, openai.com.

Когда компания OpenAI выпустила интерфейс прикладного программирования (API) для автоматизации доступа к своим инструментам, она написала: «многие из наших команд теперь используют API, чтобы сосредоточиться на исследованиях в области машинного обучения [...]». В апреле 2025 года они нанимали сотрудников, которые «будут использовать модели OpenAI для [...] создания приложений [...]».

18. подобного рода уязвимости: “The Underhanded C Contest,” n.d., underhanded-c.org.

Перед участниками конкурса Underhanded C Contest стояла задача написать вредоносный код, который прошел бы строгую

1 ... 52 53 54 55 56 57 58 59 60 61
Перейти на страницу:
Отзывы - 0

Прочитали книгу? Предлагаем вам поделится своим отзывом от прочитанного(прослушанного)! Ваш отзыв будет полезен читателям, которые еще только собираются познакомиться с произведением.


Уважаемые читатели, слушатели и просто посетители нашей библиотеки! Просим Вас придерживаться определенных правил при комментировании литературных произведений.

  • 1. Просьба отказаться от дискриминационных высказываний. Мы защищаем право наших читателей свободно выражать свою точку зрения. Вместе с тем мы не терпим агрессии. На сайте запрещено оставлять комментарий, который содержит унизительные высказывания или призывы к насилию по отношению к отдельным лицам или группам людей на основании их расы, этнического происхождения, вероисповедания, недееспособности, пола, возраста, статуса ветерана, касты или сексуальной ориентации.
  • 2. Просьба отказаться от оскорблений, угроз и запугиваний.
  • 3. Просьба отказаться от нецензурной лексики.
  • 4. Просьба вести себя максимально корректно как по отношению к авторам, так и по отношению к другим читателям и их комментариям.

Надеемся на Ваше понимание и благоразумие. С уважением, администратор knigkindom.ru.


Партнер

Новые отзывы

  1. Гость ghonius858 Гость ghonius85804 июнь 17:48 Помощь в оформлении водительских прав любой категории. Работаем быстро, конфиденциально и с индивидуальным подходом к каждому.... Бутаров Алекс – Большая Рыба
  2. Гость Любовь Гость Любовь03 июнь 16:19 Книга мне очень понравилась.Интересная,много юмора.Читайте с удовольствием.... Отдам дракона в хорошие руки - Марина Ефиминюк
  3. Гость ghonius858 Гость ghonius85803 июнь 11:01 Помощь в оформлении водительских прав любой категории. Работаем быстро, конфиденциально и с индивидуальным подходом к каждому.... Бутаров Алекс – Большая Рыба
Все комметарии
Новое в блоге