KnigkinDom.org»Книги » Разная литература»📕 Эти странные новые разумы: Как ИИ научился говорить и что это значит - Кристофер Саммерфилд

Эти странные новые разумы: Как ИИ научился говорить и что это значит - Кристофер Саммерфилд

Name: Эти странные новые разумы: Как ИИ научился говорить и что это значит - Кристофер Саммерфилд
Rating: 5 (1000 reviews)
Author: Кристофер Саммерфилд
ISBN: 00000000

Книгу Эти странные новые разумы: Как ИИ научился говорить и что это значит - Кристофер Саммерфилд читаем онлайн бесплатно полную версию! Чтобы начать читать не надо регистрации. Напомним, что читать онлайн вы можете не только на компьютере, но и на андроид (Android), iPhone и iPad. Приятного чтения!

1 ... 77 78 79 80 81 82 83 84 85 ... 111

Перейти на страницу:

Шрифт:

Интервал:

Закладка:

Сделать

последовательности слов, чисел или символов. В ходе предварительного обучения модели оптимизируются так, чтобы стать экспертами в подражании, копируя то, как человек мог бы продолжить фрагмент текста или кода. После тонкой настройки они могут превосходно справляться с написанием текстов, кодингом и математикой. Но в отличие от людей, современные большие языковые модели не наделены целью напрямую. Их не обучают целенаправленно изменять мир под какую-то конкретную форму, подобно тому как Бурро Шмидт упорно трудился три десятилетия, чтобы пробить обходной путь в горе. Исследователи искусственного интеллекта не программировали большие языковые модели на то, чтобы предотвратить изменение климата, продвигать социальную справедливость или урегулировать вооруженные конфликты. И, вопреки подозрениям некоторых критиков, они не обучали их исподтишка увеличивать маржу прибыли, способствовать избранию лояльных политиков или создавать комфортную нормативно-правовую среду. Поскольку перед большими языковыми моделями не ставится никакой цели, они кажутся нам довольно пассивными и вялыми. Им неведомо любопытство. Они не замирают от удивления, как ребенок в музее динозавров. У них не возникает интереса к тропическим рыбкам или страсти к Шуберту, и они совершенно равнодушны к вашей компании, каким бы приятным собеседником вы ни были. В этом кроется одно из главных отличий современных больших языковых моделей от людей.

Тем не менее, создание ИИ, чье поведение в большей степени ориентировано на достижение целей, — это бурно развивающаяся область исследований. Вполне вероятно, что в ближайшем будущем большие языковые модели будут активно стремиться к достижению определенных состояний, а не просто пассивно угадывать, какое слово должно быть следующим. Это кардинально изменит принцип работы систем ИИ, сделав их более мощными и опасными. В пресловутом мысленном эксперименте философ Ник Бостром представляет мощную систему ИИ, запрограммированную на выполнение банальной задачи — например, производство канцелярских скрепок. Обладая безграничным интеллектом и лазерной концентрацией на задаче, этот ИИ, по его сценарию, перенаправит все ресурсы человечества на свои нужды и в конечном итоге уничтожит всех нас в слепой погоне за своей целью.[*1] Этот апокалиптический сценарий, вероятно, нам пока не грозит, но нетрудно представить, что появление мощных систем ИИ, запрограммированных на упорное преследование собственных целей, откроет широкие возможности как для непреднамеренного вреда, так и для прямого злоупотребления.

Так что же такое инструментальность и как нам создать инструментальные большие языковые модели? В самом широком смысле инструментальный агент — это субъект, который ценит одни состояния мира больше других и активно стремится к достижению тех состояний, которые считает наиболее предпочтительными. Голодная обезьяна может ценить состояние «поедание фруктов» выше, чем «непоедание фруктов», и поэтому решит залезть на дерево, чтобы нарвать манго. В машинном обучении область, изучающая создание инструментальных агентов, называется обучением с подкреплением (RL). В обучении с подкреплением исследователь операционализирует цель системы в виде «функции вознаграждения» — набора числовых значений, искусственно привязанных к определенным состояниям или действиям, которые агент обучается максимизировать.

Представьте роботизированную собаку, чей мозг управляется нейронной сетью. Сеть получает «вознаграждение», пропорциональное физическому расстоянию, на которое собака переместилась от своего начального состояния. По мере того как собака совершает (изначально случайные) механические действия, веса нейронной сети постепенно адаптируются, чтобы генерировать движения, которые с большей вероятностью максимизируют вознаграждение. Это побуждает собаку самостоятельно осваивать скоординированные формы передвижения, делая ее все более мобильной в погоне за вознаграждением. Обучение с подкреплением позволило искусственным агентам действовать поразительно разумно. Как уже упоминалось во введении, в 2016 году система глубокого обучения AlphaGo стала первым ИИ, который победил человека в сложнейшей настольной игре го. Ее обучали, начисляя вознаграждение +100 за победу, –100 за поражение и 0 за ничью, а также оптимизируя сеть для максимизации этого результата на протяжении миллионов партий. Робототехническая компания Boston Dynamics использовала RL, чтобы научить настоящую механическую собаку по кличке Спот ловко бегать рысцой по пересеченной местности, взбираться по лестницам и лихо перепрыгивать с одной приподнятой платформы на другую (увы, Спот — промышленный робот и пока недоступен в качестве домашнего питомца).

Согласно этому определению, большие языковые модели, прошедшие тонкую настройку с помощью RLHF, уже демонстрируют ограниченные формы инструментальности. В RLHF высказывания «вознаграждаются» обратной связью от людей-краудсорсеров, которые ставят наивысшие оценки самым полезным и наименее вредным ответам. Таким образом, у тонко настроенных больших языковых моделей есть своего рода инструментальная цель: максимизировать положительные оценки от людей (точно так же, как люди надеются на симпатию или уважение за свои слова и поступки). Но если говорить о жизненных целях, эта сформулирована довольно туманно. Существует множество различных способов, которыми большая языковая модель может достичь этой цели — по сути, произнося практически всё, что является вежливым, точным и безопасным. Это определенно не так четко очерчено, как страстное желание пробить гору насквозь или наводнить мир канцелярскими товарами. Так что же мы можем сделать, чтобы заставить большие языковые модели действовать более целенаправленно, и какими будут последствия?

Напомним, что в части 3 мы познакомились с фундаментальной идеей когнитивистики: решения, основанные на вознаграждении, принимаются двумя различными системами. Система, основанная на привычках, учится делать простые и грубые выборы на основе прошлого опыта, в то время как система, основанная на целях, тщательно перебирает возможные варианты, взвешивая их вероятные будущие издержки и выгоды. Настраивая большую языковую модель на основе огромных объемов опыта, мы прививаем ей хорошие привычки — наделяем ее языковыми рефлексами, которые сдерживают сквернословие, токсичность и многословие и в идеале делают ее более точной, полезной и безопасной. Как мы уже видели, в сочетании с богатыми и разнообразными данными этот метод проб и ошибок может быть удивительно эффективным. В частности, он позволяет моделям демонстрировать контекстное обучение, в ходе которого большие языковые модели «мета-обучаются» стратегии, генерирующей соответствующие ответы на совершенно новые последовательности токенов. Это дает им гибкость, позволяющую творчески писать тексты, решать логические головоломки или давать советы, основанные на здравом смысле. Однако если мы хотим создать по-настоящему целеустремленные большие языковые модели, нам необходимо наделить их системой, основанной на целях — такой, которая явно ищет правильные слова или действия с прицелом на достижение конкретного результата. В исследованиях ИИ это обычно называют созданием больших языковых моделей, способных к планированию.

Планирование — это ментальный процесс, который включает в себя продумывание шагов, необходимых для достижения цели, поиска ответа или прибытия в пункт назначения. Представьте, например, старшеклассника, который ломает голову над тем, как разделить 392 на 7. Большинство людей не хранят ответ на этот вопрос в памяти. Однако если ученика обучили методу деления в столбик и он знает таблицу умножения, он может: (1) разделить 39 на 7, что

1 ... 77 78 79 80 81 82 83 84 85 ... 111

Перейти на страницу:

Жалоба

Прочитали книгу? Предлагаем вам поделится своим отзывом от прочитанного(прослушанного)! Ваш отзыв будет полезен читателям, которые еще только собираются познакомиться с произведением.

Уважаемые читатели, слушатели и просто посетители нашей библиотеки! Просим Вас придерживаться определенных правил при комментировании литературных произведений.

1. Просьба отказаться от дискриминационных высказываний. Мы защищаем право наших читателей свободно выражать свою точку зрения. Вместе с тем мы не терпим агрессии. На сайте запрещено оставлять комментарий, который содержит унизительные высказывания или призывы к насилию по отношению к отдельным лицам или группам людей на основании их расы, этнического происхождения, вероисповедания, недееспособности, пола, возраста, статуса ветерана, касты или сексуальной ориентации.
2. Просьба отказаться от оскорблений, угроз и запугиваний.
3. Просьба отказаться от нецензурной лексики.
4. Просьба вести себя максимально корректно как по отношению к авторам, так и по отношению к другим читателям и их комментариям.

Надеемся на Ваше понимание и благоразумие. С уважением, администратор knigkindom.ru.

Оставить комментарий

Гость Светлана26 июль 11:47 Большущее Вам спасибо за роман!!!! Столько эмоций и чувств при его прочтении!!!! А какие эмоциональные качели🙏👍👍👍 особенно в... Моё сердце в тебе бьётся - Даша Коэн
Гость Елена24 июль 13:03 В целом неплохо, но автору надо запомнить, что помимо слова "приёмник" в русском языке есть слово "преемник", и именно оно... В болезни и здравии, Дракон - Хель Сорго
Semmi22 июль 17:17 Не знаю, кто выложил эту книгу здесь без разрешения и без указания чтецов, но хочу чтобы слушатели знали: Над начиткой этой книги... Priest - В башне над мостом