KnigkinDom.org» » »📕 Генеративный искусственный интеллект. Как ИИ меняет нашу жизнь и работу - Нума Дхамани

Генеративный искусственный интеллект. Как ИИ меняет нашу жизнь и работу - Нума Дхамани

Книгу Генеративный искусственный интеллект. Как ИИ меняет нашу жизнь и работу - Нума Дхамани читаем онлайн бесплатно полную версию! Чтобы начать читать не надо регистрации. Напомним, что читать онлайн вы можете не только на компьютере, но и на андроид (Android), iPhone и iPad. Приятного чтения!

1 2 3 ... 91
Перейти на страницу:

Шрифт:

-
+

Интервал:

-
+

Закладка:

Сделать
эта положительная обратная связь создает цикл подкрепления, при котором модель с большей вероятностью будет снова повторять это действие, тогда как наказуемое поведение становится менее вероятным. Как мы увидим дальше, большие языковые модели обычно используют комбинацию этих стратегий.

Обучение с подкреплением – это метод обучения на основе проб и ошибок, при котором модель постоянно обучается находить наилучший результат, получая за свои ответы либо вознаграждение, либо штрафы от алгоритма.

Рис. 1.1. Цикл обучения с подкреплением

Кроме особенностей обучения, есть еще несколько ключевых компонентов, которые характерны для модели NLP (обработка естественного языка). Первый – это данные, которые для задач на естественном языке представлены в виде текста. Второй – это целевая функция, которая, по сути, является математической формулировкой цели модели. Цель может заключаться в том, чтобы свести к минимуму количество ошибок, допущенных в конкретной задаче, или минимизировать различие между прогнозом модели для какой-то величины и ее истинным значением. Третий – существуют различные типы моделей и архитектуры, но фактически все продвинутые модели NLP за последние несколько десятилетий относились к единственной категории – нейронным сетям.

Нейронные сети были представлены в 1944 году как алгоритмическое представление человеческого мозга8. В каждой нейронной сети есть входной и выходной слой, а между ними – какое-либо количество «скрытых» слоев; каждый слой, в свою очередь, имеет несколько нейронов, или узлов, которые могут соединяться разными способами. Каждый нейрон присваивает передаваемым ему входным данным весовые коэффициенты (веса) [4], суммирует их и «активируется», то есть передает сигнал на следующий слой, если сумма входных данных превышает некоторое пороговое значение. Сутью обучения таких нейронных сетей является подбор оптимальных значений для весовых коэффициентов и пороговых значений. Обрабатывая обучающие данные, алгоритм будет итеративно обновлять весовые коэффициенты и пороговые значения до тех пор, пока не найдет те, которые лучше всего соответствуют целевой функции модели. Мы не будем сейчас обсуждать точную математику, лежащую в основе этого процесса, но важно отметить, что большие нейронные сети могут аппроксимировать любую функцию, какой бы сложной она ни была, что делает их полезными при обработке огромных объемов данных, например во многих задачах по обработке естественного языка. Количество параметров относится к количеству весовых коэффициентов, встроенных в модель, и является условным обозначением уровня сложности, с которым она способна справиться, что, в свою очередь, определяет ее возможности. Самые эффективные на сегодняшний день LLM учитывают сотни миллиардов параметров.

За последние несколько десятилетий доступность больших объемов данных и вычислительных мощностей способствовала укреплению доминирования нейронных сетей и привела к бесчисленным экспериментам с различными сетевыми архитектурами. Глубокое обучение возникло как подраздел, где «глубокое» означает просто глубину задействованных нейронных сетей, то есть количество скрытых слоев между входом и выходом. Было обнаружено, что по мере увеличения масштаба и глубины нейронных сетей – при наличии достаточного количества данных – производительность моделей улучшалась.

1.2. Рождение LLM: все, что вам нужно, – это внимание

Когда люди начали обучать модели генерации текста, классификации и другим задачам по обработке естественного языка, они стремились понять, чему именно обучаются модели. Это не чисто научное любопытство: изучение того, как модели делают прогнозы, является важным шагом к тому, чтобы доверять полученным результатам в достаточной степени для использования. Давайте возьмем в качестве примера машинный перевод с английского на испанский.

Когда мы подаем на вход модели текстовую последовательность, например The cat wore red socks («Кот носил красные носки»), то вначале ее необходимо закодировать в математическое представление. Последовательность разбивается на токены – обычно это либо слова, либо их части. Нейронная сеть преобразует эти токены в свое математическое представление и применяет к ним обученный алгоритм. В конце для получения удобочитаемого результата выходные данные преобразуются обратно в токены, то есть декодируются. В данном случае выходная последовательность – это перевод предложения (El gato usó calcetines rojos). Модели, которые получают на вход последовательность и возвращают также последовательность, мы называем sequence-to-sequence. Когда модель выдает правильный перевод, мы приходим к выводу, что модель удовлетворительно «выучила» функцию перевода, по крайней мере, для слов и грамматических структур, представленных в этих входных данных.

Традиционно для таких задач использовали последовательные алгоритмы: токены обрабатывались по очереди, в том порядке, в котором они представлены в последовательности [5]. В 2014 году исследователи машинного обучения, вновь вдохновленные некоторыми особенностями человеческого мышления9, предложили альтернативу традиционному подходу передачи последовательностей по частям через модель энкодер-декодер [6]. В новом подходе декодер «видел» всю входную последовательность целиком и, более того, пытался найти в ней кусочки, наиболее релевантные для очередного генерируемого токена. Такой подход называется механизмом внимания. Давайте вернемся к примеру с машинным переводом. Если вас попросят выделить ключевые слова из предложения That cat chased a mouse, but it didn’t catch it («Эта кошка гонялась за мышкой, но не поймала ее»), вы, вероятно, выберете cat (кошка) и mouse (мышка), поскольку местоимения that и артикль a не так важны в переводе. Как показано на рис. 1.2, вы сосредоточили свое «внимание» на важных словах. Механизм внимания имитирует это, добавляя весовые коэффициенты внимания, чтобы усилить важные части последовательности.

МЕХАНИЗМ ВНИМАНИЯ вычисляет индивидуальный контекст для каждого слова в последовательности.

Рис. 1.2. Распределение внимания к слову it в различных контекстах

Несколько лет спустя в статье Google Brain с удачным заголовком «Все, что вам нужно, – это внимание» авторы показали, что механизм внимания позволяет отказаться от последовательной обработки входных последовательностей, и предложили архитектуру, позволяющую распараллелить больший объем вычислений и таким образом существенно ускорить работу модели. Они назвали эти модели трансформерами. Трансформеры обрабатывают каждое слово в предложении, многократно применяя механизм внимания. Результатом обработки является новое численное представление слова [7], которое отражает его связь с другими словами в предложении, что позволяет модели более точно «понять» его смысл. И все эти вычисления могут проводиться параллельно для разных слов в предложении. В статье «Все, что вам нужно, – это внимание» авторы показали, что эти модели достигли высочайшей производительности при выполнении задач по переводу с английского на немецкий и на французский10. Это был крупнейший прорыв в NLP за это десятилетие, заложивший основу для последующих работ.

Рис. 1.3. Хронология наиболее значимых событий в области обработки естественного языка

Благодаря экономии времени и ресурсов с трансформерами стало возможным обучать модели на гораздо больших объемах данных. Это привело к рождению большой языковой модели. Компания OpenAI

1 2 3 ... 91
Перейти на страницу:
Отзывы - 0

Прочитали книгу? Предлагаем вам поделится своим отзывом от прочитанного(прослушанного)! Ваш отзыв будет полезен читателям, которые еще только собираются познакомиться с произведением.


Уважаемые читатели, слушатели и просто посетители нашей библиотеки! Просим Вас придерживаться определенных правил при комментировании литературных произведений.

  • 1. Просьба отказаться от дискриминационных высказываний. Мы защищаем право наших читателей свободно выражать свою точку зрения. Вместе с тем мы не терпим агрессии. На сайте запрещено оставлять комментарий, который содержит унизительные высказывания или призывы к насилию по отношению к отдельным лицам или группам людей на основании их расы, этнического происхождения, вероисповедания, недееспособности, пола, возраста, статуса ветерана, касты или сексуальной ориентации.
  • 2. Просьба отказаться от оскорблений, угроз и запугиваний.
  • 3. Просьба отказаться от нецензурной лексики.
  • 4. Просьба вести себя максимально корректно как по отношению к авторам, так и по отношению к другим читателям и их комментариям.

Надеемся на Ваше понимание и благоразумие. С уважением, администратор knigkindom.ru.


Партнер

Новые отзывы

  1. Гость Читатель Гость Читатель23 март 22:10 Адмну, модератору....мне понравился ваш сайт у вас очень порядочные книги про попаданцев....... спасибо... Маринка, хозяйка корчмы - Ульяна Гринь
  2. Гость Читатель Гость Читатель23 март 20:10 Книга понравилась, хотя я не любитель зоологии...... но в книге все вполне прилично и порядочно, не то что в других противно... Кухарка для дракона - Ада Нэрис
  3. Гость Галина Гость Галина22 март 07:37 Очень интересная книга, тема затронута актуальная для нашего времени. ... Перекресток трех дорог - Татьяна Степанова
Все комметарии
Новое в блоге