KnigkinDom.org» » »📕 Искусственный интеллект. Краткая история будущего - Тоби Уолш

Искусственный интеллект. Краткая история будущего - Тоби Уолш

Книгу Искусственный интеллект. Краткая история будущего - Тоби Уолш читаем онлайн бесплатно полную версию! Чтобы начать читать не надо регистрации. Напомним, что читать онлайн вы можете не только на компьютере, но и на андроид (Android), iPhone и iPad. Приятного чтения!

1 ... 23 24 25 26 27 28 29 30 31 ... 41
Перейти на страницу:

Шрифт:

-
+

Интервал:

-
+

Закладка:

Сделать
ничего?

ЗАКОНЫ МАСШТАБИРОВАНИЯ

Компания OpenAI поставила сотни миллионов на масштабирование моделей семейства GPT, но это не было таким рисковым мероприятием, как может показаться ввиду некоторых удивительных законов масштабирования. Они не являются фундаментальными, как законы Ньютона. Насколько нам известно, они не отражают физику вселенной. Законы масштабирования эмпирические. Они отражают результаты наблюдений о том, как большее количество параметров, вычислений и обучающих данных привели к улучшениям производительности нейронных сетей.

Илл. 19. Производительность больших языковых моделей в стандартном тесте с несколькими вариантами ответов в зависимости от объема вычислений, используемых для обучения моделей

Законы масштабирования предполагают, что производительность систем изменяется по мере увеличения размера модели (измеряется количеством параметров), увеличения способности к обучению (измеряется количеством машинных циклов) и увеличения объема обучающих данных (измеряется количеством токенов в обучающем наборе). Действительно, оказывается, что простые математические соотношения (так называемые степенные законы) связывают воедино эти четыре показателя.

Это означает, что мы можем с точностью рассчитать производительность при масштабировании систем. Говоря простыми словами, если мы увеличим бюджет вычислений в десять раз, то количество параметров и токенов также увеличится пропорционально.

Тем не менее мы сталкиваемся с одной фундаментальной проблемой. Мы не можем просто и быстро увеличить вычислительные мощности и количество обучающих данных в десять раз. В настоящее время наблюдается дефицит графических процессоров, поскольку компании и даже целые страны конкурируют за доступ к вычислительной инфраструктуре для создания все более крупных моделей. Вместе с этим у нас заканчиваются данные или, как минимум, высококачественные данные. Например, GPT–3 был обучен на большом количестве материала, взятого из интернета.

Но ведь есть что-то еще, что мы можем сделать? В конце концов, люди научились ходить, говорить, читать и писать еще до того, как у нас появился доступ к интернету…

Идея № 5:

Награда за успех

Мы подобрались к обучению с подкреплением, пятой и предпоследней идее в этой истории искусственного интеллекта. Очередная идея, украденная у природы. Вы можете учиться на собственном опыте, получая награду за успех и наказание за ошибку.

Множество вещей мы изучаем на практике. Мы садимся на велосипед и падаем с него, снова садимся, проезжаем небольшое расстояние и снова падаем. Медленно, но уверенно мы учимся делать больше правильных вещей и избегать неправильных. Возможно, компьютеры могут обучаться таким же способом?

Эта идея намного сложнее, чем кажется изначально. Подумайте об обучении шахматам. Предположим, что вы играете и проигрываете. Вам необходимо некое наказание за ошибку, чтобы не повторить ее снова. Но какой именно ход привел к поражению? Несмотря на общий проигрыш, за время игры сделано много хороших ходов. Просто не было возможности исправить ошибку, допущенную в самом начале. Теперь как вы определите плохие ходы?

А сейчас представьте, что вы выиграли. И вам необходимо получить награду за достигнутый успех, но какие именно шаги привели вас к такому результату? Несмотря на победу, за время игры вы сделали несколько неудачных ходов, но их было недостаточно, чтобы в итоге проиграть. Также возможно, что мог быть сделан единственный решающий ход, который принес победу. Это довольно-таки популярная проблема в области искусственного интеллекта и называется «проблема распределения заслуг». Как понять, какое именно действие привело к конечному результату, если только лишь в конце игры мы понимаем, выигрыш это или проигрыш? Проблема заключается в распределении заслуг за выигрыш и вины за проигрыш за различные ходы, сделанные на протяжении всей игры.

Один из первых исследователей искусственного интеллекта Дональд Мичи использовал метод обучения с подкреплением для игры в крестики-нолики с механическим компьютером. Коллега из Эдинбургского университета поспорил с Мичи, что тот не сможет построить обучающую машину. На самом деле, коллега утверждал, что создать такую машину невозможно. Но в 1960 году, чтобы доказать неправоту своего коллеги, Дональд создал MENACE (Machine Educable Noughts and Crosses Engine), обучающийся машинный движок для игры в крестики-нолики. Это был компьютер, построенный из спичечных коробков, в котором был использован метод обучения с подкреплением. И действительно, MENACE научился играть идеально, так что выиграть у него стало невозможно.

Компьютер Мичи был прост и состоял из 304 спичечных коробков, каждый из которых представлял различные варианты возможного расположения крестиков и ноликов на игровом поле. Выяснилось, что существует 304 уникальных состояния поля, если не учитывать повороты и зеркальные отражения. Первый ход делал MENACE – для того чтобы компьютер ходил вторым, понадобилось бы намного больше коробков. Каждый квадратик на игровом поле имел свой цвет. В коробках находились шарики разного цвета, каждый из которых обозначал один из девяти возможных ходов. Сначала из спичечного коробка наугад вынимался шарик, показывающий текущее состояние игрового поля. После, руководствуясь цветом шарика, можно было понять, где MENACE сделал свой следующий ход.

Илл. 20. MENACE, воспроизведенный Мэттью Скроггсом в 2015 году

По окончании игры, если победа была за MENACE, цветные шарики возвращались в свои спичечные коробки, а также добавлялось три бонусных шарика одного цвета как награда за успешную игру. Но если же MENACE проигрывал, в качестве наказания за ходы, приведшие к проигрышу, никакие шарики не возвращались. Таким образом, распределение заслуг MENACE было довольно-таки простым. При победе все ходы награждались, а при проигрыше все ходы наказывались. Такое незамысловатое распределение заслуг отлично подходит для обучения таким простым играм, как крестики-нолики. Спустя несколько сотен партий MENACE стал играть идеально. В противном же случае MENACE всегда проигрывал бы. Но MENACE невозможно обыграть. Вы только посмотрите на это: набор неодушевленных спичечных коробков победил человечество!

Такие игры, как шахматы или крестики-нолики, – наиболее подходящие направления для применения принципа обучения с подкреплением, поскольку есть четкий показатель успеха. Обучение может быть и самостоятельным, например когда компьютер играет сам с собой. Такой метод обучения можно применять и для тренировки роботов в ходьбе или поднятии предметов.

Позже Мичи использовал обучение с подкреплением, чтобы научить робота эквилибристике. Тем не менее такое обучение намного медленнее, чем игра в виртуальные игры. А когда робот делает ошибки, вы можете сломать его. Именно по этим причинам для роботов все чаще применяется обучение с подкреплением не в реальном мире, а на симуляторе.

Интерес Мичи к искусственному интеллекту возник еще в самом начале зарождения этой области. Прежде чем работать в Эдинбурге, он занимал должность взломщика кода в Блетчли-парке. Именно здесь он подружился с Аланом Тьюрингом. Совместное времяпрепровождение за обедом и плохие навыки игры в шахматы помогли им сблизиться. Мичи и Тьюринг задумались о том, могут ли машины научиться играть

1 ... 23 24 25 26 27 28 29 30 31 ... 41
Перейти на страницу:
Отзывы - 0

Прочитали книгу? Предлагаем вам поделится своим отзывом от прочитанного(прослушанного)! Ваш отзыв будет полезен читателям, которые еще только собираются познакомиться с произведением.


Уважаемые читатели, слушатели и просто посетители нашей библиотеки! Просим Вас придерживаться определенных правил при комментировании литературных произведений.

  • 1. Просьба отказаться от дискриминационных высказываний. Мы защищаем право наших читателей свободно выражать свою точку зрения. Вместе с тем мы не терпим агрессии. На сайте запрещено оставлять комментарий, который содержит унизительные высказывания или призывы к насилию по отношению к отдельным лицам или группам людей на основании их расы, этнического происхождения, вероисповедания, недееспособности, пола, возраста, статуса ветерана, касты или сексуальной ориентации.
  • 2. Просьба отказаться от оскорблений, угроз и запугиваний.
  • 3. Просьба отказаться от нецензурной лексики.
  • 4. Просьба вести себя максимально корректно как по отношению к авторам, так и по отношению к другим читателям и их комментариям.

Надеемся на Ваше понимание и благоразумие. С уважением, администратор knigkindom.ru.


Партнер

Новые отзывы

  1. Гость Любовь Гость Любовь17 июнь 11:07 Прочитала залпом,интересный сюжет, захватывает с первых фраз.Чтение произведения доставило мне огромное удовольствие... (Не)нужная жена дракона на вес золота - Татьяна Бэк
  2. Гость Ольга Гость Ольга16 июнь 22:43 Легкий детектив Натальи Андреевой. Знакомый герой. Домбай!... Пин-код на приворот - Наталья Вячеславовна Андреева
  3. Ма Ма15 июнь 02:32 Что это вообще было и зачем? Столько мерзости и грязи вместить на 18 стр это надо хорошо постараться!!🤢 Я часто читаю... Кира: Как я стала его мусором - Кира Невин
Все комметарии
Новое в блоге