Модели разума. Как физика, инженерия и математика сформировали наше понимание мозга - Lindsay Grace
Книгу Модели разума. Как физика, инженерия и математика сформировали наше понимание мозга - Lindsay Grace читаем онлайн бесплатно полную версию! Чтобы начать читать не надо регистрации. Напомним, что читать онлайн вы можете не только на компьютере, но и на андроид (Android), iPhone и iPad. Приятного чтения!
Шрифт:
Интервал:
Закладка:
Чтобы понять эту подмену, давайте рассмотрим владельца малого бизнеса - очень малого бизнеса. Анжела - бродяга в нью-йоркском метро. Она знает, что может играть на своей электрической скрипке в течение 20 минут на определенных станциях метро, прежде чем ее прогонят власти, и тогда ей не разрешат вернуться. На разных станциях, однако, выплачиваются разные суммы. Туристические районы могут быть очень прибыльными, в то время как остановки для коренных ньюйоркцев приносят гораздо меньше пожертвований. Она выходит из своего дома на Гринпойнт-авеню в Бруклине и хочет оказаться рядом с домом подруги на Бликер-стрит. Какой путь ей выбрать, чтобы заработать больше всего денег по дороге к месту назначения?
До сих пор мы замечали, что, начав с одной позиции и сделав шаг по плану, мы оказываемся в обстоятельствах, в целом схожих с теми, с которых начинали, - только начинаем мы с другой позиции и имеем другой план. В последовательном принятии решений различные позиции, через которые мы можем пройти, называются состояниями, а шаги в плане часто называют действиями. В случае с Анжелой состояния - это различные станции метро , на которых она может оказаться. Каждый раз, когда Анжела совершает действие (например, переходит со станции А на станцию Б), она оказывается в новом состоянии (станция Б), которое одновременно приносит ей определенное вознаграждение (количество пожертвований, которые получает ее игра) и предоставляет ей новый набор возможных действий (другие станции, на которые можно перейти). Таким образом, состояния определяют, какие действия доступны (например, вы не можете сразу отправиться с Гринпойнт-авеню на Таймс-сквер), а действия определяют, какими будут следующие состояния.
Это взаимодействие - когда действия, предпринятые в рамках плана, влияют на то, какие действия будут доступны в будущем, - является частью того, что делает последовательные процессы принятия решений такими сложными. Что сделал Беллман, так это взял это созвездие состояний, действий и вознаграждений и перевернул его с ног на голову. Вместо того чтобы говорить о вознаграждении, ожидаемом от серии действий, он сосредоточился на ценности, которую имеет любое данное состояние.
Ценность, в разговорном смысле, - понятие туманное. Оно вызывает мысли о деньгах и стоимости, а также о более глубоких понятиях смысла и пользы, которые бывает трудно определить. Уравнение Беллмана, однако, дает точное определение ценности. Используя ту же рекурсивную структуру, которая была представлена ранее, Беллман определил ценность состояния как вознаграждение, которое вы получаете в этом состоянии, плюс дисконтированная стоимость следующего состояния. Заметьте, в этом определении нет явного понятия плана; ценность определяется другими ценностями.
Тем не менее, это уравнение опирается на знание следующего состояния. Без плана, в котором указано, какое действие будет предпринято, как мы узнаем, каким будет следующее состояние? Именно здесь в игру вступает первоначальная интуиция - идея о том, что лучший план складывается из лучших действий. Чтобы рассчитать стоимость в следующем состоянии, достаточно предположить, что будет предпринято наилучшее возможное действие. А наилучшее возможное действие - это то, которое ведет к состоянию с наибольшей ценностью! Если говорить языком ценности, то сам план исчезает.
Как же это поможет Анжеле? Учитывая карту возможных станций метро (см. рис. 25) и соответствующие пожертвования, которые она ожидает получить от каждой из них, мы можем рассчитать "функцию ценности". Функция ценности - это просто ценность, связанная с каждым состоянием (в данном случае с каждой станцией). Мы можем рассчитать ее, начав с конца и работая в обратном направлении. Как только Анжела дойдет до Бликер-стрит, она сразу же отправится домой к своему другу и не будет заниматься букингом, поэтому вознаграждение, которое она получит в конечном пункте назначения, составит 0 долларов. Поскольку с этой точки не существует других состояний, ценность Бликер-стрит также равна нулю. Возвращаясь назад, можно вычислить ценности Юнион-сквер и 34-й улицы в терминах ожидаемого там вознаграждения и ценности Бликер-стрит. Этот процесс продолжается до тех пор, пока не будет вычислена стоимость каждой станции.
Рисунок 25
Имея на руках эти значения, Анжела теперь может планировать свое путешествие. Отправившись с Гринпойнт-авеню, она может сесть на поезд до Корт-Сквер или Метрополитен-авеню. Что ей выбрать? Если смотреть только на возможное вознаграждение от каждого из них, то Метрополитен-авеню кажется более выгодным выбором, поскольку предлагает 10 долларов против 5 долларов на Корт-Сквер. Но если посмотреть на функцию ценности, то Корт-Сквер - правильный выбор. Это происходит потому, что функция ценности заботится о том, в какие состояния вы можете попасть в будущем, а с Корт-Сквер Анджела может попасть прямо в джекпот, на Таймс-сквер. С Корт-сквер Анжела также может отправиться на Квинс-плаза, но это не имеет значения, потому что функция ценности предполагает, что Анжела умна.Она предполагает, что с Корт-сквер она пойдет на Таймс-сквер, потому что Таймс-сквер - лучший выбор. В целом, следуя функции ценности, Анжела пройдет через Корт-Сквер на Таймс-сквер, затем на 34-ю улицу и, наконец, доберется до места назначения на Бликер-стрит. В общей сложности она заработает 65 долларов - больше, чем может предложить любой путь на этой карте.
Переход Беллмана на функцию ценности был важен, потому что он исправил недостаток в первоначальной постановке задачи. Мы начали с того, что пытались вычислить общее вознаграждение, которое мы могли бы получить от данного плана. На самом деле, план - это именно то, что мы пытаемся найти! Как только мы узнаем функцию ценности, план становится простым: следуйте ему. Подобно хлебным крошкам, оставленным на лесной тропинке, функция ценности указывает вам, куда идти. Тому, кто ищет наибольшую награду, нужно лишь жадно искать следующее состояние с наибольшей ценностью. Все действия могут быть выбраны на основе этого простого правила.
В результате дисконтирования, которое является частью определения стоимости, происходят интересные вещи. Например, посмотрите на варианты, которые есть у Анжелы с Таймс-сквер. Она может либо пойти на 34-ю улицу, получить 20 долларов и закончить на Бликер-стрит, либо пойти на 14-ю улицу, получить 8 долларов, затем пойти на Юнион-сквер, получить 12 долларов и закончить на Бликер-стрит. Оба маршрута принесут ей в общей сложности 20 долларов. Но ценность 34-й улицы равна 20, в то время как ценность 14-й улицы равна 17,6 (вычисляется как 8 + 0,8 x 12), что указывает на то, что 34-я улица - лучший вариант. Это демонстрирует, как дисконтирование будущих вознаграждений может привести к планам с меньшим количеством шагов; если есть только столько вознаграждений, которые можно получить, лучше получить их быстрее, чем медленнее. Дисконтирование также означает, что даже большие вознаграждения
Прочитали книгу? Предлагаем вам поделится своим отзывом от прочитанного(прослушанного)! Ваш отзыв будет полезен читателям, которые еще только собираются познакомиться с произведением.
Уважаемые читатели, слушатели и просто посетители нашей библиотеки! Просим Вас придерживаться определенных правил при комментировании литературных произведений.
- 1. Просьба отказаться от дискриминационных высказываний. Мы защищаем право наших читателей свободно выражать свою точку зрения. Вместе с тем мы не терпим агрессии. На сайте запрещено оставлять комментарий, который содержит унизительные высказывания или призывы к насилию по отношению к отдельным лицам или группам людей на основании их расы, этнического происхождения, вероисповедания, недееспособности, пола, возраста, статуса ветерана, касты или сексуальной ориентации.
- 2. Просьба отказаться от оскорблений, угроз и запугиваний.
- 3. Просьба отказаться от нецензурной лексики.
- 4. Просьба вести себя максимально корректно как по отношению к авторам, так и по отношению к другим читателям и их комментариям.
Надеемся на Ваше понимание и благоразумие. С уважением, администратор knigkindom.ru.
Оставить комментарий
-
Гость Марина30 сентябрь 02:40 Доброй ночи! Спасибо Вам за ещё одну интересную книгу. Моё знакомство с Вашим творчеством, даже уже не помню с какой началось... Без права на ошибку. Дочь олигарха - Кристина Майер
-
Травинка29 сентябрь 22:55 Слишком частое употребление слова женушка. Очень резало. ... (Не)желанная. Я тебя не отпущу - Лия Ришар
-
Римма29 сентябрь 22:27 Чуть не уснула. Сути на страниц 20, остальное - никчемноач тягомотина.... Искра твоей души - Иванна Осипова