Реальность на кону: Как игры объясняют человеческую природу - Келли Клэнси
Книгу Реальность на кону: Как игры объясняют человеческую природу - Келли Клэнси читаем онлайн бесплатно полную версию! Чтобы начать читать не надо регистрации. Напомним, что читать онлайн вы можете не только на компьютере, но и на андроид (Android), iPhone и iPad. Приятного чтения!
Шрифт:
Интервал:
Закладка:
В начале 1990-х гг. в области обучения с подкреплением был достигнут заметный прогресс: инженер Джеральд Тесауро создал программу для игры в нарды, успешно обучавшуюся с помощью метода временны́х разностей. Хотя нарды и не обладают таким культурным престижем, как шахматы, компьютерным программам было чрезвычайно трудно их освоить. К 1990 г. шахматные и шашечные программы уже приближались к уровню лучших игроков-людей, но их успех обеспечивался в основном «методом грубой силы» – опиравшимся на огромные вычислительные мощности перебором всех возможных вариантов на десятки ходов вперед. Однако не все игры в равной степени поддаются такому подходу. В шашках коэффициент ветвления – среднее число возможных ходов при каждой позиции – равен трем. Просчет наперед лавинообразно превращается в гигантское вычисление, поскольку каждый из этих трех ходов порождает еще три возможности – и так далее. В шахматах коэффициент ветвления имеет более проблематичное значение 35. Популярные уже как минимум пять тысячелетий нарды сочетают удачу и стратегию. Два игрока размещают на противоположных концах доски по 15 фишек, которые должны поменяться местами, двигаясь в соответствии с выпадающими на костях числами. Здесь коэффициент ветвления достигает примерно 400, так что прогнозирование даже на несколько ходов вперед быстро становится непосильной задачей[61].
Тесауро назвал свою программу TD-Gammon – в честь метода временны́х разностей (temporal difference)[62]. Вслед за Сэмюэлом с его шашечной программой он ставил TD-Gammon играть против собственных копий, что позволяло ей накапливать огромный опыт в ходе самоигры. Как и в случае с MENACE, первые партии TD-Gammon были ужасны, а победы одерживались лишь случайно. Программа еще ничему не научилась, так что ее прогнозы были чистой воды догадками. После нескольких десятков партий ее ходы начали напоминать простейшие стратегии при стандартном подходе к игре. После 300 000 партий она играла на уровне лучших уже существующих программ. Это особенно впечатляло, поскольку TD-Gammon не получила в явной форме никаких экспертных представлений о нардах. Другие ведущие программы были обучены копировать стратегии мастеров-людей и запрограммированы с помощью сложных уравнений, выражающих правила игры и встречающиеся в ней закономерности. TD-Gammon же выстраивала свою систему представлений исключительно на собственном опыте. После миллионов партий программа играла наравне с лучшими игроками-людьми. Анализируя ее стиль, специалисты обнаруживали неортодоксальные стратегии, бросавшие вызов любым традиционным подходам. Тесауро отмечал, что ее необычная манера игры «в некоторых случаях привела к серьезному пересмотру позиционного мышления ведущих игроков»[63]. Например, TD-Gammon использовала дебютную стратегию, превосходившую так называемый «захват пунктов», которое тогда считалось почти обязательным. Впоследствии забивание практически исчезло с турниров. Мечта Тьюринга осуществилась: самостоятельно освоившая нарды программа открыла новые глубины древней игры ее мастерам.
Вдохновленная достижениями психологии, TD-Gammon научилась играть лучше большинства людей. Но училась ли она так, как учатся люди? Теоретики нейронауки Питер Дайан, Рид Монтегю и Терри Сейновски обнаружили неожиданную аналогию: странные закономерности срабатывания дофаминовых нейронов, зафиксированные в лаборатории Шульца, в точности напоминали сигнал ошибки предсказания в системах типа TD-Gammon. Сейновски связался с Шульцем, и их ставшие теперь классическими совместные работы позволяют предположить, что дофамин сообщает в мозге об ошибке предсказания награды[64].
Эта элегантная концепция объясняла изначально сбивавшие с толку результаты Шульца[65]. Хотя дофамин выполняет в мозге множество функций, новые работы предполагали, что он действует как компонент обучающего алгоритма. Подобно методу временны́х разностей, дофаминовая система выражает то, в какой степени организм ожидает получения награды. Активность дофаминовых нейронов показывает, получило ли животное бо́льшую или меньшую награду, чем оно прогнозировало. Для нейронауки столь четкое соответствие теории и экспериментальных данных – огромная редкость. Мозг создает некую внутреннюю модель мира и регистрирует отклонения реальности от ее предсказаний. Как выразился нейробиолог Роберт Сапольски, дофамин «обслуживает скорее ожидание награды, чем саму награду»[66][67].
Дофамин играет в интеллекте ключевую роль. Он отвечает за поведение, направленное на поиск вознаграждения, у большинства подвижных животных, причем его концентрация в мозге выше у более разумных видов, таких как приматы и люди[68]. Однако тут следует сделать определенные оговорки. Приведенное мною описание – не только грубое упрощение наших знаний о дофаминовых нейронах, но и лишь малая часть того, что нам еще предстоит о них узнать. Не все дофаминовые нейроны сигнализируют об одном и том же. Некоторые отслеживают размер и ценность ожидаемого вознаграждения, но другие, судя по всему, срабатывают в зависимости от движений животного, его мотивации, тяжести наказания, ощущения неопределенности или сенсорных предсказаний. К тому же высвобождение дофамина влияет на нейроны-мишени очень многими способами. Говорить о дофамине как об однородном сигнале неправильно – хотя я и впредь буду допускать эту ошибку ради простоты изложения. Алгоритм обучения с подкреплением может быть очень разным, и мы не знаем точно, какая его версия (если вообще какая-либо) реализована в реальном мозге. И конечно же, эта история не сводится к дофамину. Дофаминовая система лишь один из компонентов гигантской и запутанной обучающейся сети, включающей разнообразные группы нейронов, химические вещества и рецепторы по всему организму. Петли обратной связи, напоминающие змею, кусающую себя за хвост, затрудняют интерпретацию любого нейронного сигнала. Однако несмотря на все это, обучение с подкреплением послужило очень полезной моделью для изучения одной из потенциальных функций дофамина в мозге.
В этой интерпретации процесс планирования можно рассматривать как запуск мозгом обучения с подкреплением на основе воображаемого опыта, полученного в рамках его
Прочитали книгу? Предлагаем вам поделится своим отзывом от прочитанного(прослушанного)! Ваш отзыв будет полезен читателям, которые еще только собираются познакомиться с произведением.
Уважаемые читатели, слушатели и просто посетители нашей библиотеки! Просим Вас придерживаться определенных правил при комментировании литературных произведений.
- 1. Просьба отказаться от дискриминационных высказываний. Мы защищаем право наших читателей свободно выражать свою точку зрения. Вместе с тем мы не терпим агрессии. На сайте запрещено оставлять комментарий, который содержит унизительные высказывания или призывы к насилию по отношению к отдельным лицам или группам людей на основании их расы, этнического происхождения, вероисповедания, недееспособности, пола, возраста, статуса ветерана, касты или сексуальной ориентации.
- 2. Просьба отказаться от оскорблений, угроз и запугиваний.
- 3. Просьба отказаться от нецензурной лексики.
- 4. Просьба вести себя максимально корректно как по отношению к авторам, так и по отношению к другим читателям и их комментариям.
Надеемся на Ваше понимание и благоразумие. С уважением, администратор knigkindom.ru.
Оставить комментарий
-
Гость Анна20 март 12:40
Очень типичное- девочка "в беде", он циник, хочет защитить становится человечнее. Ну как бы такое себе....
Брак по расчету - Анна Мишина
-
bundhitticald197518 март 20:08
Культурное наследие и современная культура Республики Алтай -...
Брак по расчету - Анна Мишина
-
masufroti198318 март 09:51
Источник информации о Республике Адыгея - https://antology-xviii.spb.ru/Istochnik_informacii_o_Respublike_Adygeya...
Брак по расчету - Анна Мишина
