KnigkinDom.org» » »📕 Токен за токеном - SeNS Boston

Токен за токеном - SeNS Boston

Книгу Токен за токеном - SeNS Boston читаем онлайн бесплатно полную версию! Чтобы начать читать не надо регистрации. Напомним, что читать онлайн вы можете не только на компьютере, но и на андроид (Android), iPhone и iPad. Приятного чтения!

1 ... 16 17 18 19 20 21 22 23 24 ... 33
Перейти на страницу:

Шрифт:

-
+

Интервал:

-
+

Закладка:

Сделать
новым, это сочетание: применить эту схему к трансформеру, обученному предсказывать следующий токен на действительно большом массиве текстов. Никто до этого не пробовал. Все существовавшие тогда модели работали либо с одной задачей и одним размеченным набором данных, либо с трансформером в его исходной encoder-decoder форме на задаче перевода.

Алек принёс свою идею на одно из внутренних собраний OpenAI. Илья её сразу одобрил. Илья к этому моменту уже два года искал, на чём именно показать гипотезу масштабирования; обработка естественного языка, до сих пор обходившая стороной нейронные сети, выглядела многообещающе.

BooksCorpus

Для обучения нужны были данные. Алек с Ильёй и ещё двумя коллегами — Картиком Нарасимханом и Тимом Салимансом — обсудили, что взять.

Часть Интернета? Технически возможно, но грязно: огромные куски этого массива будут низкого качества, спам, повторяющиеся шаблоны, машинно-генерированный мусор. Команда тогда решила, что нужен более чистый источник.

В академической литературе незадолго до этого появилось упоминание сборника под названием BooksCorpus. Его собрал в 2015 году исследователь Юкунь Чжу: семь тысяч художественных книг, опубликованных в основном самиздатом, из открытой части интернета. Около миллиарда слов. Книги были разнообразных жанров, написаны людьми на нормальном языке, имели последовательный сюжет, то есть требовали от читающего длительного удержания контекста. Это казалось хорошей основой.

Команда взяла BooksCorpus и принялась обучать трансформер.

Архитектура, к которой они пришли, была почти буквальной копией декодера из статьи Васвани и др., только с увеличенным числом слоёв. Двенадцать слоёв самовнимания вместо шести. Размер скрытого состояния — семьсот шестьдесят восемь. Всего сто семнадцать миллионов параметров. По меркам того времени модель была средней. По меркам ImageNet 2012 года — гигантской. По меркам же того, что появится через несколько лет, — почти игрушечной.

Обучение шло около месяца на восьми видеокартах. Алек контролировал процесс. К концу мая 2018 года модель была готова.

Что показала модель

Команда взяла обученную модель и стала тестировать её на двенадцати стандартных задачах обработки естественного языка. Категории были разные: текстовая семантическая близость, вопросно-ответные системы, классификация эмоциональной окраски, обнаружение текстовых вхождений. На каждой задаче модель дообучали в несколько проходов по конкретному размеченному набору, потом замеряли точность.

Из двенадцати задач модель показала новый state-of-the-art на девяти. Это был очень сильный результат. Особенно учитывая, что ни архитектура, ни обучающие данные не были разработаны специально для этих задач; всё это было универсальное языковое предобучение, которое потом просто «подкручивали» на каждую конкретную задачу за несколько часов.

Статью назвали Improving Language Understanding by Generative Pre-Training. В аннотации авторы скромно отметили, что их подход — это комбинация двух существующих идей: трансформеров и предобучения без учителя.

Самой модели они не дали никакого блестящего названия. В тексте статьи она называлась просто «наша модель». В фразе Generative Pre-Training были спрятаны три буквы, которые в дальнейшем станут чем-то вроде культурного маркера эпохи: GPT. Но в тот момент авторы об этом не думали. Это просто было аббревиатура из их собственного заголовка.

Статья появилась как препринт OpenAI 11 июня 2018 года. Через пять лет ровно — в июне 2023 года — её прямой потомок, ChatGPT, будет иметь сто миллионов активных пользователей в месяц, и слово GPT начнут произносить в новостях как имя нарицательное.

Тем временем в Google

Джейкоб Девлин, Kaggle Coffee Chat 2019

Параллельно с работой Алека в Google происходило нечто, очень похожее по духу, но идущее в другом направлении.

В одной из исследовательских групп Google под руководством Якова Девлина возникла такая идея. Что если, вместо того чтобы обучать трансформер предсказывать следующий токен в последовательности (как это делал GPT), использовать только энкодерную часть и обучать его на другой задаче — предсказывать пропущенные слова в середине предложения?

Идея на первый взгляд казалась мелким изменением. Но у неё было важное последствие. В отличие от автоматической прогрессии слева направо, при которой каждое слово видит только то, что было до него, в задаче с пропуском в середине каждое слово видит контекст и слева, и справа. То есть представление, которое выучивает модель, оказывается двунаправленным. Для задач, где нужно понять смысл целого предложения (например, классификации эмоций или поиска ответа в тексте), это потенциально мощнее.

Модель эту назвали BERT — Bidirectional Encoder Representations from Transformers. Девлин с коллегами опубликовали статью в октябре 2018 года, через четыре месяца после GPT-1. Результаты были ещё более впечатляющими: BERT побил state-of-the-art на одиннадцати из одиннадцати задач, на которых тестировался. Причём на нескольких — с большим отрывом.

В академическом сообществе эффект был мгновенный. BERT за несколько недель стал самой обсуждаемой моделью в обработке естественного языка. Google выложил веса модели в открытый доступ; за месяц её скачали и стали использовать тысячи компаний по всему миру. Для большинства специалистов BERT в конце 2018 года был просто новым стандартом: любая система, работающая с английским текстом, должна была использовать BERT-овские эмбеддинги.

GPT-1 на этом фоне выглядел блекло. Он был меньше (BERT-large имел триста сорок миллионов параметров против ста семнадцати у GPT-1), он работал на чуть других задачах, он принадлежал маленькой лаборатории в Сан-Франциско, а не корпоративному гиганту. В большинстве обзоров обработки естественного языка конца 2018 года GPT-1 упоминался коротко, BERT — обстоятельно.

Если бы в этот момент кто-нибудь спросил у среднего исследователя, какая из двух работ важнее, ответ был бы — BERT. Очевидно BERT. Без сомнения BERT.

Выбор OpenAI

GPT и BERT: два направления

В OpenAI после октябрьского BERT-а наступила пара недель внутренних дискуссий. Что делать дальше? Стоит ли переключаться на BERT-овскую парадигму, тем более что в Google открыли веса и поделились кодом? Или продолжать собственную линию, GPT-направление?

С чисто прагматической точки зрения логично было бы переключиться. BERT работал лучше на большинстве задач, был общепринятым стандартом, и идти против течения значило бы оставаться в роли догоняющего.

Но в OpenAI решили иначе. Логика этого решения, как её позже сформулировал Илья, была примерно такая. BERT — отличная архитектура для понимания текста. Он учится представлять смысл фразы в виде векторов. Но он не умеет порождать новый текст. Любая попытка заставить BERT написать связное предложение даёт довольно странный результат: модель умеет дополнить пропуск в фразе, но не умеет вести длинное повествование.

GPT, наоборот, спроектирован именно для порождения. Он каждый раз предсказывает следующее слово, и поэтому может, начиная с пустого места, написать связный текст любой длины. Это намного более

1 ... 16 17 18 19 20 21 22 23 24 ... 33
Перейти на страницу:
Отзывы - 0

Прочитали книгу? Предлагаем вам поделится своим отзывом от прочитанного(прослушанного)! Ваш отзыв будет полезен читателям, которые еще только собираются познакомиться с произведением.


Уважаемые читатели, слушатели и просто посетители нашей библиотеки! Просим Вас придерживаться определенных правил при комментировании литературных произведений.

  • 1. Просьба отказаться от дискриминационных высказываний. Мы защищаем право наших читателей свободно выражать свою точку зрения. Вместе с тем мы не терпим агрессии. На сайте запрещено оставлять комментарий, который содержит унизительные высказывания или призывы к насилию по отношению к отдельным лицам или группам людей на основании их расы, этнического происхождения, вероисповедания, недееспособности, пола, возраста, статуса ветерана, касты или сексуальной ориентации.
  • 2. Просьба отказаться от оскорблений, угроз и запугиваний.
  • 3. Просьба отказаться от нецензурной лексики.
  • 4. Просьба вести себя максимально корректно как по отношению к авторам, так и по отношению к другим читателям и их комментариям.

Надеемся на Ваше понимание и благоразумие. С уважением, администратор knigkindom.ru.


Партнер

Новые отзывы

  1. Синь Синь14 май 09:56 Классная серия книг. Столько юмора и романтики! Браво! Фильмы надо снимать ... Роковые яйца майора Никитича - Ольга Липницкая
  2. Павел Павел11 май 20:37 Спасибо за компетентность и талант!!!!... Байки из кочегарки (записки скромного терминатора) - Владимир Альбертович Чекмарев
  3. Антон Антон10 май 15:46 Досадно, что книга, которая может спасти в реальном атомном конфликте тысячи людей, отсутствует в открытом доступе... Колокол Нагасаки - Такаси Нагаи
Все комметарии
Новое в блоге