Эти странные новые разумы: Как ИИ научился говорить и что это значит - Кристофер Саммерфилд
Книгу Эти странные новые разумы: Как ИИ научился говорить и что это значит - Кристофер Саммерфилд читаем онлайн бесплатно полную версию! Чтобы начать читать не надо регистрации. Напомним, что читать онлайн вы можете не только на компьютере, но и на андроид (Android), iPhone и iPad. Приятного чтения!
Шрифт:
Интервал:
Закладка:
Тем не менее, создание ИИ, чье поведение в большей степени ориентировано на достижение целей, — это бурно развивающаяся область исследований. Вполне вероятно, что в ближайшем будущем большие языковые модели будут активно стремиться к достижению определенных состояний, а не просто пассивно угадывать, какое слово должно быть следующим. Это кардинально изменит принцип работы систем ИИ, сделав их более мощными и опасными. В пресловутом мысленном эксперименте философ Ник Бостром представляет мощную систему ИИ, запрограммированную на выполнение банальной задачи — например, производство канцелярских скрепок. Обладая безграничным интеллектом и лазерной концентрацией на задаче, этот ИИ, по его сценарию, перенаправит все ресурсы человечества на свои нужды и в конечном итоге уничтожит всех нас в слепой погоне за своей целью.[*1] Этот апокалиптический сценарий, вероятно, нам пока не грозит, но нетрудно представить, что появление мощных систем ИИ, запрограммированных на упорное преследование собственных целей, откроет широкие возможности как для непреднамеренного вреда, так и для прямого злоупотребления.
Так что же такое инструментальность и как нам создать инструментальные большие языковые модели? В самом широком смысле инструментальный агент — это субъект, который ценит одни состояния мира больше других и активно стремится к достижению тех состояний, которые считает наиболее предпочтительными. Голодная обезьяна может ценить состояние «поедание фруктов» выше, чем «непоедание фруктов», и поэтому решит залезть на дерево, чтобы нарвать манго. В машинном обучении область, изучающая создание инструментальных агентов, называется обучением с подкреплением (RL). В обучении с подкреплением исследователь операционализирует цель системы в виде «функции вознаграждения» — набора числовых значений, искусственно привязанных к определенным состояниям или действиям, которые агент обучается максимизировать.
Представьте роботизированную собаку, чей мозг управляется нейронной сетью. Сеть получает «вознаграждение», пропорциональное физическому расстоянию, на которое собака переместилась от своего начального состояния. По мере того как собака совершает (изначально случайные) механические действия, веса нейронной сети постепенно адаптируются, чтобы генерировать движения, которые с большей вероятностью максимизируют вознаграждение. Это побуждает собаку самостоятельно осваивать скоординированные формы передвижения, делая ее все более мобильной в погоне за вознаграждением. Обучение с подкреплением позволило искусственным агентам действовать поразительно разумно. Как уже упоминалось во введении, в 2016 году система глубокого обучения AlphaGo стала первым ИИ, который победил человека в сложнейшей настольной игре го. Ее обучали, начисляя вознаграждение +100 за победу, –100 за поражение и 0 за ничью, а также оптимизируя сеть для максимизации этого результата на протяжении миллионов партий. Робототехническая компания Boston Dynamics использовала RL, чтобы научить настоящую механическую собаку по кличке Спот ловко бегать рысцой по пересеченной местности, взбираться по лестницам и лихо перепрыгивать с одной приподнятой платформы на другую (увы, Спот — промышленный робот и пока недоступен в качестве домашнего питомца).
Согласно этому определению, большие языковые модели, прошедшие тонкую настройку с помощью RLHF, уже демонстрируют ограниченные формы инструментальности. В RLHF высказывания «вознаграждаются» обратной связью от людей-краудсорсеров, которые ставят наивысшие оценки самым полезным и наименее вредным ответам. Таким образом, у тонко настроенных больших языковых моделей есть своего рода инструментальная цель: максимизировать положительные оценки от людей (точно так же, как люди надеются на симпатию или уважение за свои слова и поступки). Но если говорить о жизненных целях, эта сформулирована довольно туманно. Существует множество различных способов, которыми большая языковая модель может достичь этой цели — по сути, произнося практически всё, что является вежливым, точным и безопасным. Это определенно не так четко очерчено, как страстное желание пробить гору насквозь или наводнить мир канцелярскими товарами. Так что же мы можем сделать, чтобы заставить большие языковые модели действовать более целенаправленно, и какими будут последствия?
Напомним, что в части 3 мы познакомились с фундаментальной идеей когнитивистики: решения, основанные на вознаграждении, принимаются двумя различными системами. Система, основанная на привычках, учится делать простые и грубые выборы на основе прошлого опыта, в то время как система, основанная на целях, тщательно перебирает возможные варианты, взвешивая их вероятные будущие издержки и выгоды. Настраивая большую языковую модель на основе огромных объемов опыта, мы прививаем ей хорошие привычки — наделяем ее языковыми рефлексами, которые сдерживают сквернословие, токсичность и многословие и в идеале делают ее более точной, полезной и безопасной. Как мы уже видели, в сочетании с богатыми и разнообразными данными этот метод проб и ошибок может быть удивительно эффективным. В частности, он позволяет моделям демонстрировать контекстное обучение, в ходе которого большие языковые модели «мета-обучаются» стратегии, генерирующей соответствующие ответы на совершенно новые последовательности токенов. Это дает им гибкость, позволяющую творчески писать тексты, решать логические головоломки или давать советы, основанные на здравом смысле. Однако если мы хотим создать по-настоящему целеустремленные большие языковые модели, нам необходимо наделить их системой, основанной на целях — такой, которая явно ищет правильные слова или действия с прицелом на достижение конкретного результата. В исследованиях ИИ это обычно называют созданием больших языковых моделей, способных к планированию.
Планирование — это ментальный процесс, который включает в себя продумывание шагов, необходимых для достижения цели, поиска ответа или прибытия в пункт назначения. Представьте, например, старшеклассника, который ломает голову над тем, как разделить 392 на 7. Большинство людей не хранят ответ на этот вопрос в памяти. Однако если ученика обучили методу деления в столбик и он знает таблицу умножения, он может: (1) разделить 39 на 7, что
Прочитали книгу? Предлагаем вам поделится своим отзывом от прочитанного(прослушанного)! Ваш отзыв будет полезен читателям, которые еще только собираются познакомиться с произведением.
Уважаемые читатели, слушатели и просто посетители нашей библиотеки! Просим Вас придерживаться определенных правил при комментировании литературных произведений.
- 1. Просьба отказаться от дискриминационных высказываний. Мы защищаем право наших читателей свободно выражать свою точку зрения. Вместе с тем мы не терпим агрессии. На сайте запрещено оставлять комментарий, который содержит унизительные высказывания или призывы к насилию по отношению к отдельным лицам или группам людей на основании их расы, этнического происхождения, вероисповедания, недееспособности, пола, возраста, статуса ветерана, касты или сексуальной ориентации.
- 2. Просьба отказаться от оскорблений, угроз и запугиваний.
- 3. Просьба отказаться от нецензурной лексики.
- 4. Просьба вести себя максимально корректно как по отношению к авторам, так и по отношению к другим читателям и их комментариям.
Надеемся на Ваше понимание и благоразумие. С уважением, администратор knigkindom.ru.
Оставить комментарий
-
Гость ghonius85805 июнь 00:47
Помощь в оформлении водительских прав любой категории. Работаем быстро, конфиденциально и с индивидуальным подходом к каждому....
Игры современников. Записки пинчраннера - Кэндзабуро Оэ
-
Гость ghonius85804 июнь 17:48
Помощь в оформлении водительских прав любой категории. Работаем быстро, конфиденциально и с индивидуальным подходом к каждому....
Бутаров Алекс – Большая Рыба
-
Гость Любовь03 июнь 16:19
Книга мне очень понравилась.Интересная,много юмора.Читайте с удовольствием....
Отдам дракона в хорошие руки - Марина Ефиминюк
