Эти странные новые разумы: Как ИИ научился говорить и что это значит - Кристофер Саммерфилд
Книгу Эти странные новые разумы: Как ИИ научился говорить и что это значит - Кристофер Саммерфилд читаем онлайн бесплатно полную версию! Чтобы начать читать не надо регистрации. Напомним, что читать онлайн вы можете не только на компьютере, но и на андроид (Android), iPhone и iPad. Приятного чтения!
Шрифт:
Интервал:
Закладка:
Пропустить примечания
*1 Vaswani et al., 2017.
*2 Ravuri et al., 2021.
*3 Варианты этой идеи восходят как минимум к 1980-м годам (Hintzman and Ludlam, 1980).
*4 Kocijan et al., 2023.
*5 Linzen, Dupoux, and Goldberg, 2016.
*6 Цит. по: Baroni, 2021.
*7 Piantadosi, 2023.
14. Модели LLM как лингвистические теории.
Ноам Хомский ошибался насчет природы вычислений, необходимых для освоения языка. Но в других отношениях он был прав. Во-первых, он утверждал, что языковое моделирование требует весьма специфических алгоритмических операций. Здесь он высказывает эту мысль в своем неподражаемом стиле, критикуя LLM за то, что они представляют собой универсальные инструменты статистического моделирования: «Нельзя прийти на физическую конференцию и сказать: "У меня есть отличная теория. Она объясняет всё и настолько проста, что укладывается в два слова: "Всё сойдет""»[*1].
Ноам Хомский высмеивает то, что кажется ему банальностью машинного обучения. Алгоритмы, лежащие в основе современного NLP, утверждает он, интеллектуально неинтересны в качестве языковых теорий — это просто массивные инструменты «грубой силы», которые бездумно перемалывают данные, что ни в коей мере не напоминает работу человеческого мозга. Вместо этого, по его мнению, нам нужны более тонко проработанные алгоритмические инструменты, адаптированные под конкретную задачу.
Независимо от того, справедлива ли его критика глубокого обучения, Ноам Хомский абсолютно прав в том, что далеко не все статистические модели, какими бы большими и мощными они ни были, способны порождать грамматически правильные предложения. История исследований в области NLP пестрит ложными стартами, и ученые лишь постепенно совершенствовали набор канонических вычислений, необходимых для корректного генерирования предложений. При переходе от n-граммных моделей (которые заучивали пары или тройки слов) к глубоким сетям исследователи отказались от линейных преобразований в пользу нелинейных. Важнейшую роль играет снижение размерности, о чем свидетельствует успех моделей с плотными векторами признаков (где скрипка и виолончель более похожи друг на друга), а не разреженных one-hot кодов размерностью 50 000. За последнее десятилетие модели seq2seq и трансформеры научили нас тому, что внимание жизненно необходимо для учета относительной важности предшествующего контекста предложения. Генерация естественного языка, подобного человеческому, судя по всему, возможна лишь с помощью весьма специфических вычислений. Вероятно, именно поэтому исследователям ИИ потребовалась большая часть семи десятилетий — от самых ранних символьных моделей 1950-х годов до гигантских моделей GPT 2020-х годов, — чтобы понять, как его генерировать.
Во-вторых, Ноам Хомский утверждал, что человеческие младенцы рождаются с врожденной способностью к освоению языка, которой их наделяет легендарное «устройство усвоения языка». Хотя он никогда подробно не описывал, как именно работает это устройство, Ноам Хомский приводит веские аргументы в пользу врожденного характера усвоения языка у людей. С одной стороны, только люди способны выучить язык, в то время как Коко и Ним так и не продвинулись дальше стадии «дай апельсин». С другой стороны, наше стремление говорить предложениями невероятно сильно, и оно побуждает каждого ребенка осваивать структурированные формы общения, даже если (как те близнецы в Уэльсе) они сами придумывают синтаксис.
К этому Ноам Хомский добавляет третий аргумент, который особенно актуален при сравнении человеческого обучения языку с обучением LLM: человеческие дети осваивают язык с непревзойденной эффективностью. Он называет это аргументом о «бедности стимула».
Человеческие дети действительно, по всей видимости, усваивают родной язык с минимальными усилиями. Что еще более примечательно, скорость их обучения практически не зависит от объема воспринимаемой ими речи[*2]. Например, американцев из среднего класса всячески побуждают обеспечивать своим детям хороший старт в жизни, постоянно разговаривая с ними, даже если те в ответ лишь гулят, кричат или срыгивают, и поэтому дети специалистов со Среднего Запада слышат в среднем более 2000 слов в час. Напротив, индейцы чимане — доиндустриальное общество охотников-собирателей и земледельцев в низменностях Боливии — вообще редко утруждают себя разговорами с детьми, в результате чего те слышат лишь несколько минут речи в час, и почти ни одно слово не обращено непосредственно к ним. Тем не менее дети со Среднего Запада и дети чимане осваивают язык примерно с одинаковой скоростью и через несколько лет достигают сопоставимого уровня владения им. Таким образом, развитием речи у человека, похоже, движет что-то иное, нежели просто объем услышанного.
Можно ли сравнить объем языкового опыта, получаемого человеческими детьми и моделями LLM? К десяти годам средний ребенок успевает услышать несколько миллионов слов — а те, кто растет рядом с настоящими болтунами, могут услышать до 100 миллионов. В этом возрасте они допускают очень мало ошибок в своем родном языке (за исключением, судя по всему, датского, который настолько труден для изучения, что даже коренные датчане с трудом им овладевают[*3]). Цифра может показаться огромной, но это как минимум в 2000 раз меньше объема слов, на котором обучалась GPT-3. Фактически, сегодняшние LLM получили такой языковой опыт, какой человек приобрел бы, если бы непрерывно жил в течение 25 000 лет — с пика последнего ледникового периода до наших дней, — и услышал обсуждение любой темы на свете на множестве разных языков. Даже GPT-2, устаревшая языковая модель, склонная к вопиющим синтаксическим ошибкам, «услышала» на порядок больше слов, чем средний
Прочитали книгу? Предлагаем вам поделится своим отзывом от прочитанного(прослушанного)! Ваш отзыв будет полезен читателям, которые еще только собираются познакомиться с произведением.
Уважаемые читатели, слушатели и просто посетители нашей библиотеки! Просим Вас придерживаться определенных правил при комментировании литературных произведений.
- 1. Просьба отказаться от дискриминационных высказываний. Мы защищаем право наших читателей свободно выражать свою точку зрения. Вместе с тем мы не терпим агрессии. На сайте запрещено оставлять комментарий, который содержит унизительные высказывания или призывы к насилию по отношению к отдельным лицам или группам людей на основании их расы, этнического происхождения, вероисповедания, недееспособности, пола, возраста, статуса ветерана, касты или сексуальной ориентации.
- 2. Просьба отказаться от оскорблений, угроз и запугиваний.
- 3. Просьба отказаться от нецензурной лексики.
- 4. Просьба вести себя максимально корректно как по отношению к авторам, так и по отношению к другим читателям и их комментариям.
Надеемся на Ваше понимание и благоразумие. С уважением, администратор knigkindom.ru.
Оставить комментарий
-
Гость ghonius85805 июнь 00:47
Помощь в оформлении водительских прав любой категории. Работаем быстро, конфиденциально и с индивидуальным подходом к каждому....
Игры современников. Записки пинчраннера - Кэндзабуро Оэ
-
Гость ghonius85804 июнь 17:48
Помощь в оформлении водительских прав любой категории. Работаем быстро, конфиденциально и с индивидуальным подходом к каждому....
Бутаров Алекс – Большая Рыба
-
Гость Любовь03 июнь 16:19
Книга мне очень понравилась.Интересная,много юмора.Читайте с удовольствием....
Отдам дракона в хорошие руки - Марина Ефиминюк
