Токен за токеном - SeNS Boston
Книгу Токен за токеном - SeNS Boston читаем онлайн бесплатно полную версию! Чтобы начать читать не надо регистрации. Напомним, что читать онлайн вы можете не только на компьютере, но и на андроид (Android), iPhone и iPad. Приятного чтения!
Шрифт:
Интервал:
Закладка:
После статьи Каплана план обучения большой модели выглядел иначе. Команда садилась, открывала графики со степенными зависимостями, и говорила: хотим качество X. По формулам, это требует модели размера N, объёма данных D, вычислительной стоимости C. Стоимость C переведём в доллары: получится столько-то. Если у нас есть эти деньги, мы знаем, что получим качество X. Если нет, мы знаем, на сколько именно недотянем.
Вот что сделал Каплан со своей командой: превратил обучение нейросетей из эксперимента в инженерный расчёт.
В статье 2020 года была также выведена другая важная зависимость: оптимальное распределение бюджета. Если у вас есть фиксированный бюджет на вычисления (скажем, миллиард FLOP-операций), как лучше его потратить: на большую модель с маленьким количеством данных, или на маленькую модель с большим? Каплан с командой математически вывели, что при их измерениях оптимум сдвинут в сторону больших моделей. Грубо говоря, лучше иметь модель в сто миллиардов параметров, обученную на скромном объёме данных, чем модель в десять миллиардов, обученную на массиве в десять раз большем.
Этот конкретный вывод позднее, в 2022 году, будет подвергнут пересмотру. Команда DeepMind с моделью Chinchilla покажет, что в формулах Каплана была определённая систематическая ошибка, связанная с тем, как варьировался learning rate в его экспериментах; что на самом деле оптимум сдвинут в обратную сторону, к большему количеству данных. Но это уточнение, при всей его технической важности, не меняло главного: что зависимость есть, что она степенная, и что она применима в широком диапазоне.
Откуда уверенность инвесторов
Статья Каплана и его команды появилась на arXiv в январе 2020 года. До этого момента команда уже несколько месяцев показывала свои предварительные результаты внутри OpenAI и в избранных кругах. К началу 2020 года все ведущие исследовательские лаборатории мира знали о законах масштабирования.
Влияние на индустрию было немедленным. Microsoft, который уже вложил в OpenAI миллиард в июле 2019 года, увидев предварительные результаты, начал планировать вторую и третью инвестиционные волны. Google, до этого относившийся к большим языковым моделям с прохладным интересом, объявил о собственной программе по обучению моделей размером в сотни миллиардов параметров (PaLM, 2022). DeepMind ускорил собственные работы в этом направлении.
В китайском Baidu, разочарованном результатом аукциона 2012 года, выделили бюджет на собственную программу больших языковых моделей. В Facebook AI Research началась работа над LLaMA. В Anthropic, который ещё только формировался (в 2021 году братья и сестра Амодей покинут OpenAI и заберут с собой большую часть авторов законов масштабирования), уже формулировалась стратегия: лаборатория сосредоточится на масштабировании, потому что закон Каплана даёт уверенность в результате.
Это и есть прямой ответ на вопрос, который, возможно, мучил читателя с первых страниц этой книги. На каком основании OpenAI, Microsoft, Google, Anthropic и прочие технологические гиганты стали с уверенностью тратить десятки миллиардов долларов на обучение моделей, не имея на руках ни одного готового продукта? Они стали тратить, потому что Каплан и его команда показали: качество предсказуемо растёт с вложениями. Не вера, не интуиция, не игра в догадки. Эмпирически установленная зависимость, проверенная в огромном диапазоне размеров, от моделей в тысячи параметров до моделей в миллиарды.
Это и есть, собственно, момент превращения нейронных сетей из научной дисциплины в инженерную индустрию. После Каплана большие языковые модели — это не открытие новой физики. Это инженерия. Это калькуляции. Это бизнес-планы и сметы. Деньги в эту дисциплину начали течь не потому, что в неё поверили, а потому, что в неё стало рационально вкладываться.
А что с интеллектом
У законов масштабирования была одна особенность, которую участники команды Каплана сами признавали странной. Эти законы не объясняли почему происходит то, что происходит. Они только описывали, что происходит.
В физике, если ты находишь степенной закон в природе, ты обычно сначала ищешь физическую теорию, которая его объясняет. Степенные распределения землетрясений объясняются механикой разлома; степенные хвосты в финансовых рядах — теорией кризисов; критические показатели фазовых переходов — ренормгруппой и универсальностью.
В случае нейронных сетей такой теории не было. Каплан и МакКэндлиш в своей статье 2020 года несколько раз честно отметили, что они не знают, почему графики ведут себя так, как они себя ведут. У них есть формулы; у них нет объяснения. Это, в общем-то, не помешало индустрии воспользоваться формулами. Но в академическом сообществе осталось ощущение, что под законами Каплана должна быть более глубокая теория, и эту теорию ещё предстоит открыть. К моменту, когда вы читаете эту книгу, эта теория всё ещё не открыта.
Ещё одна странность была в природе того, что измерял Каплан. Кросс-энтропия — это, в конечном счёте, не что иное, как качество предсказания следующего токена. Та самая задача, которую в 1948 году ставил перед собой Шеннон в Bell Labs, когда брал книги с полки и складывал из них псевдо-английский. Те самые n-граммные модели, которые работали в IBM в семидесятые. Та самая задача, которую решал ваш T9 в нулевые.
То есть Каплан показал: если просто и упорно делать модели больше, более длинно их обучать на большем количестве данных, они становятся в шенноновом смысле лучшими предсказателями следующего токена. По степенному закону. Бесконечно.
И вот тут возникает почти философский вопрос. Если модель становится произвольно хорошим предсказателем следующего слова — что это означает для её способностей в целом? Только ли это статистическая угадывалка, способная отлично продолжать тексты, но и только? Или предсказание следующего слова, если довести его до настоящего совершенства, в каком-то смысле эквивалентно пониманию языка, рассуждениям, решению задач?
В 2020 году эту дискуссию вели в OpenAI и Anthropic с большим жаром. Илья Суцкевер в своих публичных выступлениях того времени высказывал точку зрения, которая многим тогда казалась смелой: предсказание следующего токена при достаточно высоком качестве является сжатием знаний о мире, и обладание таким сжатием неотличимо от понимания. Иными словами: если модель достаточно хорошо угадывает следующее слово в любом тексте, она знает то же самое, что и автор этого текста.
Большинство специалистов в начале 2020 года эту точку зрения считало преувеличенной. Через полгода, увидев работу GPT-3, они задумаются. Через два с половиной года,
Прочитали книгу? Предлагаем вам поделится своим отзывом от прочитанного(прослушанного)! Ваш отзыв будет полезен читателям, которые еще только собираются познакомиться с произведением.
Уважаемые читатели, слушатели и просто посетители нашей библиотеки! Просим Вас придерживаться определенных правил при комментировании литературных произведений.
- 1. Просьба отказаться от дискриминационных высказываний. Мы защищаем право наших читателей свободно выражать свою точку зрения. Вместе с тем мы не терпим агрессии. На сайте запрещено оставлять комментарий, который содержит унизительные высказывания или призывы к насилию по отношению к отдельным лицам или группам людей на основании их расы, этнического происхождения, вероисповедания, недееспособности, пола, возраста, статуса ветерана, касты или сексуальной ориентации.
- 2. Просьба отказаться от оскорблений, угроз и запугиваний.
- 3. Просьба отказаться от нецензурной лексики.
- 4. Просьба вести себя максимально корректно как по отношению к авторам, так и по отношению к другим читателям и их комментариям.
Надеемся на Ваше понимание и благоразумие. С уважением, администратор knigkindom.ru.
Оставить комментарий
-
Синь14 май 09:56
Классная серия книг. Столько юмора и романтики! Браво! Фильмы надо снимать ...
Роковые яйца майора Никитича - Ольга Липницкая
-
Павел11 май 20:37
Спасибо за компетентность и талант!!!!...
Байки из кочегарки (записки скромного терминатора) - Владимир Альбертович Чекмарев
-
Антон10 май 15:46
Досадно, что книга, которая может спасти в реальном атомном конфликте тысячи людей, отсутствует в открытом доступе...
Колокол Нагасаки - Такаси Нагаи
