KnigkinDom.org» » »📕 Реальность на кону: Как игры объясняют человеческую природу - Келли Клэнси

Реальность на кону: Как игры объясняют человеческую природу - Келли Клэнси

Книгу Реальность на кону: Как игры объясняют человеческую природу - Келли Клэнси читаем онлайн бесплатно полную версию! Чтобы начать читать не надо регистрации. Напомним, что читать онлайн вы можете не только на компьютере, но и на андроид (Android), iPhone и iPad. Приятного чтения!

1 ... 5 6 7 8 9 10 11 12 13 ... 95
Перейти на страницу:

Шрифт:

-
+

Интервал:

-
+

Закладка:

Сделать
и Барто предложили использовать обучающий сигнал, который можно обновлять на каждом ходу: прогноз самого алгоритма о вероятности своей победы. Система, перед которой стоит задача достичь цели, должна научиться предсказывать, насколько ее решения приближают или отдаляют выполнение этой задачи. Саттон и Барто создали алгоритм, который делает прогнозы о последствиях своих действий, а затем сравнивает их с реальностью для их улучшения. Этот метод они назвали обучением на временны́х разностях. Например, в шашках программа анализирует все возможные при этой позиции ходы и оценивает вероятность победы после каждого. Допустим, она выбирает ход с прогнозом успеха в 90%. Через несколько ходов ситуация ухудшается, и эта оценка падает до 50%. Где-то по пути прогноз оказался неверным. Этот сигнал – его называют «ошибкой предсказания награды» – действует как удивление. Он указывает на пробел в знаниях, заставляя систему скорректировать первоначальные предположения, чтобы они лучше соответствовали реальности. Саттон описывал это как «догадку на основе догадки»[60]. В конечном итоге система проверяет точность своих предсказаний, когда выигрывает или проигрывает партию. Она снова и снова играет сама с собой, постоянно улучшая свои прогнозы, чтобы принимать решения, которые надежно ведут к победе.

В начале 1990-х гг. в области обучения с подкреплением был достигнут заметный прогресс: инженер Джеральд Тесауро создал программу для игры в нарды, успешно обучавшуюся с помощью метода временны́х разностей. Хотя нарды и не обладают таким культурным престижем, как шахматы, компьютерным программам было чрезвычайно трудно их освоить. К 1990 г. шахматные и шашечные программы уже приближались к уровню лучших игроков-людей, но их успех обеспечивался в основном «методом грубой силы» – опиравшимся на огромные вычислительные мощности перебором всех возможных вариантов на десятки ходов вперед. Однако не все игры в равной степени поддаются такому подходу. В шашках коэффициент ветвления – среднее число возможных ходов при каждой позиции – равен трем. Просчет наперед лавинообразно превращается в гигантское вычисление, поскольку каждый из этих трех ходов порождает еще три возможности – и так далее. В шахматах коэффициент ветвления имеет более проблематичное значение 35. Популярные уже как минимум пять тысячелетий нарды сочетают удачу и стратегию. Два игрока размещают на противоположных концах доски по 15 фишек, которые должны поменяться местами, двигаясь в соответствии с выпадающими на костях числами. Здесь коэффициент ветвления достигает примерно 400, так что прогнозирование даже на несколько ходов вперед быстро становится непосильной задачей[61].

Тесауро назвал свою программу TD-Gammon – в честь метода временны́х разностей (temporal difference)[62]. Вслед за Сэмюэлом с его шашечной программой он ставил TD-Gammon играть против собственных копий, что позволяло ей накапливать огромный опыт в ходе самоигры. Как и в случае с MENACE, первые партии TD-Gammon были ужасны, а победы одерживались лишь случайно. Программа еще ничему не научилась, так что ее прогнозы были чистой воды догадками. После нескольких десятков партий ее ходы начали напоминать простейшие стратегии при стандартном подходе к игре. После 300 000 партий она играла на уровне лучших уже существующих программ. Это особенно впечатляло, поскольку TD-Gammon не получила в явной форме никаких экспертных представлений о нардах. Другие ведущие программы были обучены копировать стратегии мастеров-людей и запрограммированы с помощью сложных уравнений, выражающих правила игры и встречающиеся в ней закономерности. TD-Gammon же выстраивала свою систему представлений исключительно на собственном опыте. После миллионов партий программа играла наравне с лучшими игроками-людьми. Анализируя ее стиль, специалисты обнаруживали неортодоксальные стратегии, бросавшие вызов любым традиционным подходам. Тесауро отмечал, что ее необычная манера игры «в некоторых случаях привела к серьезному пересмотру позиционного мышления ведущих игроков»[63]. Например, TD-Gammon использовала дебютную стратегию, превосходившую так называемый «захват пунктов», которое тогда считалось почти обязательным. Впоследствии забивание практически исчезло с турниров. Мечта Тьюринга осуществилась: самостоятельно освоившая нарды программа открыла новые глубины древней игры ее мастерам.

Вдохновленная достижениями психологии, TD-Gammon научилась играть лучше большинства людей. Но училась ли она так, как учатся люди? Теоретики нейронауки Питер Дайан, Рид Монтегю и Терри Сейновски обнаружили неожиданную аналогию: странные закономерности срабатывания дофаминовых нейронов, зафиксированные в лаборатории Шульца, в точности напоминали сигнал ошибки предсказания в системах типа TD-Gammon. Сейновски связался с Шульцем, и их ставшие теперь классическими совместные работы позволяют предположить, что дофамин сообщает в мозге об ошибке предсказания награды[64].

Эта элегантная концепция объясняла изначально сбивавшие с толку результаты Шульца[65]. Хотя дофамин выполняет в мозге множество функций, новые работы предполагали, что он действует как компонент обучающего алгоритма. Подобно методу временны́х разностей, дофаминовая система выражает то, в какой степени организм ожидает получения награды. Активность дофаминовых нейронов показывает, получило ли животное бо́льшую или меньшую награду, чем оно прогнозировало. Для нейронауки столь четкое соответствие теории и экспериментальных данных – огромная редкость. Мозг создает некую внутреннюю модель мира и регистрирует отклонения реальности от ее предсказаний. Как выразился нейробиолог Роберт Сапольски, дофамин «обслуживает скорее ожидание награды, чем саму награду»[66][67].

Дофамин играет в интеллекте ключевую роль. Он отвечает за поведение, направленное на поиск вознаграждения, у большинства подвижных животных, причем его концентрация в мозге выше у более разумных видов, таких как приматы и люди[68]. Однако тут следует сделать определенные оговорки. Приведенное мною описание – не только грубое упрощение наших знаний о дофаминовых нейронах, но и лишь малая часть того, что нам еще предстоит о них узнать. Не все дофаминовые нейроны сигнализируют об одном и том же. Некоторые отслеживают размер и ценность ожидаемого вознаграждения, но другие, судя по всему, срабатывают в зависимости от движений животного, его мотивации, тяжести наказания, ощущения неопределенности или сенсорных предсказаний. К тому же высвобождение дофамина влияет на нейроны-мишени очень многими способами. Говорить о дофамине как об однородном сигнале неправильно – хотя я и впредь буду допускать эту ошибку ради простоты изложения. Алгоритм обучения с подкреплением может быть очень разным, и мы не знаем точно, какая его версия (если вообще какая-либо) реализована в реальном мозге. И конечно же, эта история не сводится к дофамину. Дофаминовая система лишь один из компонентов гигантской и запутанной обучающейся сети, включающей разнообразные группы нейронов, химические вещества и рецепторы по всему организму. Петли обратной связи, напоминающие змею, кусающую себя за хвост, затрудняют интерпретацию любого нейронного сигнала. Однако несмотря на все это, обучение с подкреплением послужило очень полезной моделью для изучения одной из потенциальных функций дофамина в мозге.

В этой интерпретации процесс планирования можно рассматривать как запуск мозгом обучения с подкреплением на основе воображаемого опыта, полученного в рамках его

1 ... 5 6 7 8 9 10 11 12 13 ... 95
Перейти на страницу:
Отзывы - 0

Прочитали книгу? Предлагаем вам поделится своим отзывом от прочитанного(прослушанного)! Ваш отзыв будет полезен читателям, которые еще только собираются познакомиться с произведением.


Уважаемые читатели, слушатели и просто посетители нашей библиотеки! Просим Вас придерживаться определенных правил при комментировании литературных произведений.

  • 1. Просьба отказаться от дискриминационных высказываний. Мы защищаем право наших читателей свободно выражать свою точку зрения. Вместе с тем мы не терпим агрессии. На сайте запрещено оставлять комментарий, который содержит унизительные высказывания или призывы к насилию по отношению к отдельным лицам или группам людей на основании их расы, этнического происхождения, вероисповедания, недееспособности, пола, возраста, статуса ветерана, касты или сексуальной ориентации.
  • 2. Просьба отказаться от оскорблений, угроз и запугиваний.
  • 3. Просьба отказаться от нецензурной лексики.
  • 4. Просьба вести себя максимально корректно как по отношению к авторам, так и по отношению к другим читателям и их комментариям.

Надеемся на Ваше понимание и благоразумие. С уважением, администратор knigkindom.ru.


Партнер

Новые отзывы

  1. Гость Анна Гость Анна20 март 12:40 Очень типичное- девочка "в беде", он циник, хочет защитить становится человечнее. Ну как бы такое себе.... Брак по расчету - Анна Мишина
  2. bundhitticald1975 bundhitticald197518 март 20:08 Культурное наследие и современная культура Республики Алтай -... Брак по расчету - Анна Мишина
  3. masufroti1983 masufroti198318 март 09:51 Источник информации о Республике Адыгея - https://antology-xviii.spb.ru/Istochnik_informacii_o_Respublike_Adygeya... Брак по расчету - Анна Мишина
Все комметарии
Новое в блоге