KnigkinDom.org»Книги » Разная литература»📕 Реальность на кону: Как игры объясняют человеческую природу - Келли Клэнси

Реальность на кону: Как игры объясняют человеческую природу - Келли Клэнси

Name: Реальность на кону: Как игры объясняют человеческую природу - Келли Клэнси
Rating: 5 (1000 reviews)
Author: Келли Клэнси
ISBN: 00000000

Книгу Реальность на кону: Как игры объясняют человеческую природу - Келли Клэнси читаем онлайн бесплатно полную версию! Чтобы начать читать не надо регистрации. Напомним, что читать онлайн вы можете не только на компьютере, но и на андроид (Android), iPhone и iPad. Приятного чтения!

1 ... 5 6 7 8 9 10 11 12 13 ... 95

Перейти на страницу:

Шрифт:

Интервал:

Закладка:

Сделать

и Барто предложили использовать обучающий сигнал, который можно обновлять на каждом ходу: прогноз самого алгоритма о вероятности своей победы. Система, перед которой стоит задача достичь цели, должна научиться предсказывать, насколько ее решения приближают или отдаляют выполнение этой задачи. Саттон и Барто создали алгоритм, который делает прогнозы о последствиях своих действий, а затем сравнивает их с реальностью для их улучшения. Этот метод они назвали обучением на временны́х разностях. Например, в шашках программа анализирует все возможные при этой позиции ходы и оценивает вероятность победы после каждого. Допустим, она выбирает ход с прогнозом успеха в 90%. Через несколько ходов ситуация ухудшается, и эта оценка падает до 50%. Где-то по пути прогноз оказался неверным. Этот сигнал – его называют «ошибкой предсказания награды» – действует как удивление. Он указывает на пробел в знаниях, заставляя систему скорректировать первоначальные предположения, чтобы они лучше соответствовали реальности. Саттон описывал это как «догадку на основе догадки»[60]. В конечном итоге система проверяет точность своих предсказаний, когда выигрывает или проигрывает партию. Она снова и снова играет сама с собой, постоянно улучшая свои прогнозы, чтобы принимать решения, которые надежно ведут к победе.

В начале 1990-х гг. в области обучения с подкреплением был достигнут заметный прогресс: инженер Джеральд Тесауро создал программу для игры в нарды, успешно обучавшуюся с помощью метода временны́х разностей. Хотя нарды и не обладают таким культурным престижем, как шахматы, компьютерным программам было чрезвычайно трудно их освоить. К 1990 г. шахматные и шашечные программы уже приближались к уровню лучших игроков-людей, но их успех обеспечивался в основном «методом грубой силы» – опиравшимся на огромные вычислительные мощности перебором всех возможных вариантов на десятки ходов вперед. Однако не все игры в равной степени поддаются такому подходу. В шашках коэффициент ветвления – среднее число возможных ходов при каждой позиции – равен трем. Просчет наперед лавинообразно превращается в гигантское вычисление, поскольку каждый из этих трех ходов порождает еще три возможности – и так далее. В шахматах коэффициент ветвления имеет более проблематичное значение 35. Популярные уже как минимум пять тысячелетий нарды сочетают удачу и стратегию. Два игрока размещают на противоположных концах доски по 15 фишек, которые должны поменяться местами, двигаясь в соответствии с выпадающими на костях числами. Здесь коэффициент ветвления достигает примерно 400, так что прогнозирование даже на несколько ходов вперед быстро становится непосильной задачей[61].

Тесауро назвал свою программу TD-Gammon – в честь метода временны́х разностей (temporal difference)[62]. Вслед за Сэмюэлом с его шашечной программой он ставил TD-Gammon играть против собственных копий, что позволяло ей накапливать огромный опыт в ходе самоигры. Как и в случае с MENACE, первые партии TD-Gammon были ужасны, а победы одерживались лишь случайно. Программа еще ничему не научилась, так что ее прогнозы были чистой воды догадками. После нескольких десятков партий ее ходы начали напоминать простейшие стратегии при стандартном подходе к игре. После 300 000 партий она играла на уровне лучших уже существующих программ. Это особенно впечатляло, поскольку TD-Gammon не получила в явной форме никаких экспертных представлений о нардах. Другие ведущие программы были обучены копировать стратегии мастеров-людей и запрограммированы с помощью сложных уравнений, выражающих правила игры и встречающиеся в ней закономерности. TD-Gammon же выстраивала свою систему представлений исключительно на собственном опыте. После миллионов партий программа играла наравне с лучшими игроками-людьми. Анализируя ее стиль, специалисты обнаруживали неортодоксальные стратегии, бросавшие вызов любым традиционным подходам. Тесауро отмечал, что ее необычная манера игры «в некоторых случаях привела к серьезному пересмотру позиционного мышления ведущих игроков»[63]. Например, TD-Gammon использовала дебютную стратегию, превосходившую так называемый «захват пунктов», которое тогда считалось почти обязательным. Впоследствии забивание практически исчезло с турниров. Мечта Тьюринга осуществилась: самостоятельно освоившая нарды программа открыла новые глубины древней игры ее мастерам.

Вдохновленная достижениями психологии, TD-Gammon научилась играть лучше большинства людей. Но училась ли она так, как учатся люди? Теоретики нейронауки Питер Дайан, Рид Монтегю и Терри Сейновски обнаружили неожиданную аналогию: странные закономерности срабатывания дофаминовых нейронов, зафиксированные в лаборатории Шульца, в точности напоминали сигнал ошибки предсказания в системах типа TD-Gammon. Сейновски связался с Шульцем, и их ставшие теперь классическими совместные работы позволяют предположить, что дофамин сообщает в мозге об ошибке предсказания награды[64].

Эта элегантная концепция объясняла изначально сбивавшие с толку результаты Шульца[65]. Хотя дофамин выполняет в мозге множество функций, новые работы предполагали, что он действует как компонент обучающего алгоритма. Подобно методу временны́х разностей, дофаминовая система выражает то, в какой степени организм ожидает получения награды. Активность дофаминовых нейронов показывает, получило ли животное бо́льшую или меньшую награду, чем оно прогнозировало. Для нейронауки столь четкое соответствие теории и экспериментальных данных – огромная редкость. Мозг создает некую внутреннюю модель мира и регистрирует отклонения реальности от ее предсказаний. Как выразился нейробиолог Роберт Сапольски, дофамин «обслуживает скорее ожидание награды, чем саму награду»[66][67].

Дофамин играет в интеллекте ключевую роль. Он отвечает за поведение, направленное на поиск вознаграждения, у большинства подвижных животных, причем его концентрация в мозге выше у более разумных видов, таких как приматы и люди[68]. Однако тут следует сделать определенные оговорки. Приведенное мною описание – не только грубое упрощение наших знаний о дофаминовых нейронах, но и лишь малая часть того, что нам еще предстоит о них узнать. Не все дофаминовые нейроны сигнализируют об одном и том же. Некоторые отслеживают размер и ценность ожидаемого вознаграждения, но другие, судя по всему, срабатывают в зависимости от движений животного, его мотивации, тяжести наказания, ощущения неопределенности или сенсорных предсказаний. К тому же высвобождение дофамина влияет на нейроны-мишени очень многими способами. Говорить о дофамине как об однородном сигнале неправильно – хотя я и впредь буду допускать эту ошибку ради простоты изложения. Алгоритм обучения с подкреплением может быть очень разным, и мы не знаем точно, какая его версия (если вообще какая-либо) реализована в реальном мозге. И конечно же, эта история не сводится к дофамину. Дофаминовая система лишь один из компонентов гигантской и запутанной обучающейся сети, включающей разнообразные группы нейронов, химические вещества и рецепторы по всему организму. Петли обратной связи, напоминающие змею, кусающую себя за хвост, затрудняют интерпретацию любого нейронного сигнала. Однако несмотря на все это, обучение с подкреплением послужило очень полезной моделью для изучения одной из потенциальных функций дофамина в мозге.

В этой интерпретации процесс планирования можно рассматривать как запуск мозгом обучения с подкреплением на основе воображаемого опыта, полученного в рамках его

1 ... 5 6 7 8 9 10 11 12 13 ... 95

Перейти на страницу:

Жалоба

Прочитали книгу? Предлагаем вам поделится своим отзывом от прочитанного(прослушанного)! Ваш отзыв будет полезен читателям, которые еще только собираются познакомиться с произведением.

Уважаемые читатели, слушатели и просто посетители нашей библиотеки! Просим Вас придерживаться определенных правил при комментировании литературных произведений.

1. Просьба отказаться от дискриминационных высказываний. Мы защищаем право наших читателей свободно выражать свою точку зрения. Вместе с тем мы не терпим агрессии. На сайте запрещено оставлять комментарий, который содержит унизительные высказывания или призывы к насилию по отношению к отдельным лицам или группам людей на основании их расы, этнического происхождения, вероисповедания, недееспособности, пола, возраста, статуса ветерана, касты или сексуальной ориентации.
2. Просьба отказаться от оскорблений, угроз и запугиваний.
3. Просьба отказаться от нецензурной лексики.
4. Просьба вести себя максимально корректно как по отношению к авторам, так и по отношению к другим читателям и их комментариям.

Надеемся на Ваше понимание и благоразумие. С уважением, администратор knigkindom.ru.

Оставить комментарий

Гость Светлана11 июнь 18:31 Ну невозможно эту муть читать! Героине пять минут назад чуть голову не оторвали, а она отказывается от охраны. ... Развод. Приручить Бандита. - Айрин Лакс
Гость ghonius85811 июнь 10:25 Помощь в оформлении водительских прав любой категории. Работаем быстро, конфиденциально и с индивидуальным подходом к каждому.... Академ-RPG. Титан VI ранга - Павел Вяч
Гость Татьяна09 июнь 20:01 В целом интересно. Немного затянуто, но скорее всего так и надо с произведениями такого жанра... Номер 16 - Адам Нэвилл