KnigkinDom.org» » »📕 Токен за токеном - SeNS Boston

Токен за токеном - SeNS Boston

Книгу Токен за токеном - SeNS Boston читаем онлайн бесплатно полную версию! Чтобы начать читать не надо регистрации. Напомним, что читать онлайн вы можете не только на компьютере, но и на андроид (Android), iPhone и iPad. Приятного чтения!

1 ... 19 20 21 22 23 24 25 26 27 ... 33
Перейти на страницу:

Шрифт:

-
+

Интервал:

-
+

Закладка:

Сделать
миллиарды, потом десятки миллиардов, а потом и сотни миллиардов долларов в обучение всё более крупных нейронных сетей.

Если попытаться объяснить это решение проще всего, можно сказать: они инвестировали, потому что у них появились основания думать, что вложения работают. Что если потратить определённую сумму, получишь определённого качества модель. Что неудачи быть не может, потому что зависимость качества от вложений известна, измерена и предсказуема.

Это утверждение, при всей его простоте, было совершенно нетривиальным. До 2020 года ни в каком разумном смысле такого знания не было. Обучение большой модели стоимостью в десятки миллионов долларов было, по сути, гигантским экспериментом с непредсказуемым результатом. Возможно, получилось бы что-то впечатляющее. Возможно — ничего особенного. Возможно — модель вообще не сошлась бы и деньги были бы потрачены зря.

Что превратило этот эксперимент в инженерный расчёт, это работа группы из десяти исследователей, опубликованная на arXiv 23 января 2020 года. Статья называлась Scaling Laws for Neural Language Models. Её первым автором был тот самый физик, чьим именем мы озаглавили эту главу. Джаред Каплан.

Физик в стане инженеров

Джаред Каплан, Anthropic

Джаред Каплан в 2019 году преподавал теоретическую физику в Университете Джонса Хопкинса в Балтиморе. Ему было сорок лет. Он защитил PhD по теории струн в Гарварде у Нимы Аркани-Хамеда, занимался квантовой гравитацией, потом перешёл к более прикладной квантовой теории поля. Его публикации были рассеяны по физическим журналам: Phys. Rev. D, JHEP, Annalen der Physik. Ни одна из них не имела никакого отношения к нейронным сетям.

К нейронным сетям его привело сначала любопытство, а потом дружба. Каплан, как и многие учёные его поколения, в свободное время начал в 2017–2018 годах читать про прорывы в машинном обучении. Сначала ради интеллектуального интереса; потом всё с большей серьёзностью. Особенно его заинтересовало то, как нейросетевые системы вели себя при увеличении размера. У него как у физика была отличная интуиция в том, что касается степенных законов. В физике степенные законы вездесущи: фазовые переходы, критические явления, ренормгруппа, всё это языковая среда теоретического физика. Каплан смотрел на графики из ML-публикаций и думал: эти кривые подозрительно похожи на то, что я видел в моих собственных задачах.

В 2018 году Каплан познакомился с Дарио Амодеем. Они стали друзьями, обнаружив общий интерес к вопросу о том, насколько хорошо будут работать большие нейронные сети. Амодей с конца 2018 года предлагал Каплану присоединиться к OpenAI в качестве консультанта. Каплан соглашался не сразу: у него была собственная исследовательская программа в физике, и переключаться на машинное обучение целиком он не хотел.

В 2019 году они нашли компромисс. Каплан остался профессором в Хопкинсе, но взял годовой контракт с OpenAI как внешний исследователь. Его задача была сформулирована довольно широко: использовать инструменты теоретической физики, чтобы понять, как именно нейронные сети ведут себя при изменении масштаба. Если получится найти что-нибудь похожее на универсальные законы, тем лучше.

Что измеряли

К Каплану в команду присоединились несколько человек из OpenAI: Сэм МакКэндлиш (получивший докторскую по теоретической физике в Стэнфорде, тоже бывший физик), Том Хенигэн, Том Браун, Бен Чесс, Рион Чайлд, Скотт Грей, Джефф Ву, Алек Радфорд, Дарио Амодей. Большинство из них имели физическое или физическо-математическое образование. Это была команда, привыкшая искать в эмпирических данных степенные закономерности.

Они начали серию экспериментов, длившуюся почти весь 2019 год. План был такой: обучить несколько десятков языковых моделей разного размера — от совсем маленьких в сотню тысяч параметров до больших на миллиард — на разных объёмах данных, с разным временем обучения, измеряя в каждом случае конечное качество модели. Потом нанести все эти измерения на графики и посмотреть, есть ли в них структура.

Под «качеством» в этом эксперименте понимался не балл на какой-нибудь конкретной задаче, а более фундаментальная величина: средняя кросс-энтропийная ошибка модели на тестовом тексте. Грубо говоря, это среднее количество битов, которое модель тратит, чтобы предсказать следующий токен, когда она уже видела все предыдущие. Чем меньше — тем лучше модель угадывает следующее слово. Эта мера непрерывна и определена для моделей любого размера, что делает её удобной для построения графиков.

Команда систематически варьировала три параметра:

Размер модели — обозначим его N, число параметров. От нескольких десятков тысяч до миллиарда с лишним. Шесть порядков величины.

Объём данных — обозначим его D, число токенов в обучающих данных. От нескольких миллионов до десятков миллиардов.

Вычислительная стоимость — обозначим её C, количество операций с плавающей точкой, затраченных на обучение. От минут на одной видеокарте до недель на сотнях видеокарт.

Команда обучила десятки моделей в разных точках этого трёхмерного пространства, замерила в каждой точке итоговую кросс-энтропию, и нанесла всё на графики. То, что получилось, превзошло их ожидания.

Прямая линия в логарифмических осях

Закон Каплана: качество модели как функция масштаба

На графиках, где по горизонтальной оси отложили размер модели (логарифмически), а по вертикальной — кросс-энтропию (тоже логарифмически), точки выстроились в почти идеально прямую линию. Длинная, длинная прямая линия, протянувшаяся от моделей в тысячи параметров до моделей в миллиард. Размер менялся в миллионы раз, а линия оставалась прямой. Без отклонений, без скачков, без особенностей.

На графиках, где варьировали объём данных, картина была такая же: прямая линия в логарифмических осях.

На графиках, где варьировали вычислительные затраты, тоже прямая линия.

В физике такие зависимости называются степенными: y = A·x в степени k, где k — постоянное число. Степенные законы возникают там, где нет внутреннего масштаба, где система ведёт себя самоподобно при любом увеличении или уменьшении. В статистической физике они вездесущи: в критических точках фазовых переходов, в распределении землетрясений, в фрактальной геометрии береговых линий.

Здесь, в обучении нейронных сетей, они тоже оказались. Каплан и его команда обнаружили, что качество языковой модели подчиняется простой степенной зависимости от каждого из трёх параметров (размер, данные, вычисления), причём показатели степеней оказались скромными отрицательными числами в районе минус ноль ноль семидесяти. Это означало: если увеличить размер модели в десять раз, кросс-энтропия уменьшится примерно на шестнадцать процентов. Если увеличить ещё в десять раз — ещё на шестнадцать процентов. Каждое десятикратное увеличение даёт примерно одинаковую относительную прибавку качества.

Это, казалось бы, скромный эффект. Но это, во-первых, было универсально (одна и та же зависимость для моделей в тысячи параметров и в миллиарды). И во-вторых, и главное, это было предсказуемо.

Что это значило для деловой части

1 ... 19 20 21 22 23 24 25 26 27 ... 33
Перейти на страницу:
Отзывы - 0

Прочитали книгу? Предлагаем вам поделится своим отзывом от прочитанного(прослушанного)! Ваш отзыв будет полезен читателям, которые еще только собираются познакомиться с произведением.


Уважаемые читатели, слушатели и просто посетители нашей библиотеки! Просим Вас придерживаться определенных правил при комментировании литературных произведений.

  • 1. Просьба отказаться от дискриминационных высказываний. Мы защищаем право наших читателей свободно выражать свою точку зрения. Вместе с тем мы не терпим агрессии. На сайте запрещено оставлять комментарий, который содержит унизительные высказывания или призывы к насилию по отношению к отдельным лицам или группам людей на основании их расы, этнического происхождения, вероисповедания, недееспособности, пола, возраста, статуса ветерана, касты или сексуальной ориентации.
  • 2. Просьба отказаться от оскорблений, угроз и запугиваний.
  • 3. Просьба отказаться от нецензурной лексики.
  • 4. Просьба вести себя максимально корректно как по отношению к авторам, так и по отношению к другим читателям и их комментариям.

Надеемся на Ваше понимание и благоразумие. С уважением, администратор knigkindom.ru.


Партнер

Новые отзывы

  1. Синь Синь14 май 09:56 Классная серия книг. Столько юмора и романтики! Браво! Фильмы надо снимать ... Роковые яйца майора Никитича - Ольга Липницкая
  2. Павел Павел11 май 20:37 Спасибо за компетентность и талант!!!!... Байки из кочегарки (записки скромного терминатора) - Владимир Альбертович Чекмарев
  3. Антон Антон10 май 15:46 Досадно, что книга, которая может спасти в реальном атомном конфликте тысячи людей, отсутствует в открытом доступе... Колокол Нагасаки - Такаси Нагаи
Все комметарии
Новое в блоге