Генеративный искусственный интеллект. Как ИИ меняет нашу жизнь и работу - Нума Дхамани
Книгу Генеративный искусственный интеллект. Как ИИ меняет нашу жизнь и работу - Нума Дхамани читаем онлайн бесплатно полную версию! Чтобы начать читать не надо регистрации. Напомним, что читать онлайн вы можете не только на компьютере, но и на андроид (Android), iPhone и iPad. Приятного чтения!
Шрифт:
Интервал:
Закладка:
2
Обучение больших языковых моделей
Темы этой главы
• Как происходит обучение LLM
• Знакомство с эмерджентными [29] свойствами LLM
• Какие уязвимые и слабые места остаются после обучения LLM
На протяжении десятилетий цифровая экономика опиралась на данные. Цифровая экономика, основанная на сборе и обмене информацией о том, кто мы такие и чем занимаемся в интернете, оценивается в триллионы долларов, и чем больше наших повседневных дел перемещается в онлайн, тем больше зерна попадает в ее жернова. Так появилось изобретение эпохи интернета – большие языковые модели, которые способны имитировать человеческий язык, поглощая терабайты [30]данных из интернета.
Этот процесс привел нас как к предсказуемым, так и к непредсказуемым результатам. В частности, возникли серьезные вопросы о том, что содержится в наборах данных, которые потребляют большие языковые модели (LLM) и как предотвратить воспроизведение ими нежелательного текста из обучающего набора. При сборе данных в таких масштабах в них неизбежно будет попадать личная информация, некачественный и оскорбительный контент или спам, но как с этим бороться – это еще одна проблема. LLM того масштаба, который мы сейчас наблюдаем, демонстрируют множество возможностей, которых нет у маленьких языковых моделей. Эти качества делают LLM более привлекательными для различного применения и гарантируют, что гонка за все большими объемами данных и все более крупными моделями не закончится в ближайшее время.
В этой главе мы более детально познакомимся с тем, как происходит обучение LLM, дабы понимать, что делает их уникальными по сравнению с предыдущими моделями и почему их характеристики создают как новые возможности, так и потенциальный вред и уязвимости.
2.1. Как происходит обучение LLM?
В главе 1 мы рассказали немного о принципах обучения больших языковых моделей. Мы рассмотрели архитектуру трансформера – особый тип нейронной сети, применяемый в LLM, – и рассказали о некоторых источниках данных, которые используют LLM. Мы также поговорили о задаче, которую они обучены решать: генерировать наиболее вероятное следующее слово или символ, другими словами, предсказывать токен. Здесь мы рассмотрим процесс обучения более подробно и обсудим, пожалуй, самый удивительный и захватывающий аспект больших языковых моделей – их эмерджентные качества, позволяющие хорошо справляться с задачами, которые ранее LLM не изучали.
Первый шаг в создании LLM – обучение на задачах по предсказанию следующего токена на основе предшествующего контекста (авторегрессия) по гигантскому корпусу неразмеченных данных. Этот этап называют этапом предварительного обучения. Хотя на самом деле знания, полученные моделью на данном этапе, являются основой для любой задачи на естественном языке, которую она будет выполнять далее. Затем модель проходит один или несколько этапов тонкой настройки, то есть обучается на размеченных данных для решения специфической задачи. При тонкой настройке диалоговых агентов, таких как ChatGPT, могут использоваться разговорные данные; многие генеративные модели настраиваются по наборам инструкций, чтобы лучше выполнять инструкции вроде «Напиши мне стих»; другие могут настраиваться для генерации кода. Схема этого процесса изображена на рис. 2.1, но каждый этап стоит рассмотреть более подробно.
Рис. 2.1. Общая схема процесса обучения LLM
2.1.1. Рассмотрим сбор открытых данных из интернета
Чтобы научиться моделировать естественный язык, а затем убедительно генерировать его, большие языковые модели нуждаются в огромном количестве примеров. Давайте рассмотрим, какая информация неявно требуется для выполнения такой задачи, как ответ на вопрос. Во-первых, модель должна иметь точное представление как о смысле самого вопроса, так и о контексте, в котором этот вопрос задают (потому что ответ зависит от контекста), а это, в свою очередь, означает, что у нее должно быть представление для каждого слова из вопроса, причем именно в данном контексте (аналогично пониманию значения слова). Модель также должна уметь анализировать синтаксис вопроса, чтобы определить, о чем в нем спрашивают, и затем уметь создавать ответ либо из контекста (случай с «открытой книгой»), либо из собственного внутреннего представления о предмете вопроса (случай с «закрытой книгой»). Поскольку LLM уже просматривали большой объем текстов из интернета, большинство из них смогут правильно ответить на вопрос вроде «Кто был первым президентом США?», опираясь только на свои внутренние знания. Если вопрос очень редко встречается, то это может привести к неправильному или выдуманному ответу, поскольку модель не сможет найти для него высоковероятный ответ в своих внутренних представлениях и выдаст ответ, не обладающий высокой вероятностью. Примечательно, что если мы спросим ChatGPT «Кто был первым президентом?», не уточняя, что мы интересуемся Соединенными Штатами, то модель ответит: «Первым президентом Соединенных Штатов был Джордж Вашингтон».
LLM используют данные из общедоступных веб-страниц, включая такие сайты, как Wikipedia и Reddit, а также блоги, агрегаторы новостей и форумы, не защищенные паролем. Почему ChatGPT думает, что мы спрашиваем о Соединенных Штатах? Справедливости ради можно допустить, что ответ мог оказаться иным, если бы запрос пришел с IP-адреса другой страны, но это предположение также противоречит неоспоримому факту об интернет-данных: большая их часть представлена на английском языке, а непропорционально большая часть приходится на Соединенные Штаты и Западную Европу. В главе 1 мы упоминали, что Wikipedia является одним из классических источников данных для больших языковых моделей. Несмотря на то, что географический охват энциклопедии продолжает расширяться, самое большое количество статей – 6,6 миллиона – насчитывается в английской Wikipedia, в следующей по размеру – французской – 2,5 миллиона статей. В результате LLM лучше понимают, генерируют и выполняют задания на английском языке. Они также лучше разбираются в темах, актуальных для Северной Америки и Западной Европы, и, следовательно, предоставляют лучший сервис аудиториям этих стран.
Чтобы получить представление о других текстовых наборах данных, мы можем обратиться к репозиториям открытых данных, например от ИИ-компании Hugging Face (см. https://huggingface.co/datasets). Открытые данные – это данные, которые любой человек может загрузить и использовать для своих проектов; хотя иногда этот тип допустимого использования ограничен лицензией, например, поставщик данных может указать, что его датасет должен использоваться только в учебных или исследовательских целях, но не в коммерческих. Один набор данных для языковых моделей состоит из миллионов постов на Reddit (причем только из постов на английском языке). Другие датасеты включают подборки новостных статей, обзоры с таких сайтов, как Amazon и Rotten Tomatoes [31], или вопросы и ответы с сайта Q&A-сообщества Stack Exchange. Common Crawl – это некоммерческая организация, которая поддерживает обширное хранилище данных веб-страниц и предоставляет их для публичного
Прочитали книгу? Предлагаем вам поделится своим отзывом от прочитанного(прослушанного)! Ваш отзыв будет полезен читателям, которые еще только собираются познакомиться с произведением.
Уважаемые читатели, слушатели и просто посетители нашей библиотеки! Просим Вас придерживаться определенных правил при комментировании литературных произведений.
- 1. Просьба отказаться от дискриминационных высказываний. Мы защищаем право наших читателей свободно выражать свою точку зрения. Вместе с тем мы не терпим агрессии. На сайте запрещено оставлять комментарий, который содержит унизительные высказывания или призывы к насилию по отношению к отдельным лицам или группам людей на основании их расы, этнического происхождения, вероисповедания, недееспособности, пола, возраста, статуса ветерана, касты или сексуальной ориентации.
- 2. Просьба отказаться от оскорблений, угроз и запугиваний.
- 3. Просьба отказаться от нецензурной лексики.
- 4. Просьба вести себя максимально корректно как по отношению к авторам, так и по отношению к другим читателям и их комментариям.
Надеемся на Ваше понимание и благоразумие. С уважением, администратор knigkindom.ru.
Оставить комментарий
-
Гость Читатель23 март 22:10
Адмну, модератору....мне понравился ваш сайт у вас очень порядочные книги про попаданцев....... спасибо...
Маринка, хозяйка корчмы - Ульяна Гринь
-
Гость Читатель23 март 20:10
Книга понравилась, хотя я не любитель зоологии...... но в книге все вполне прилично и порядочно, не то что в других противно...
Кухарка для дракона - Ада Нэрис
-
Гость Галина22 март 07:37
Очень интересная книга, тема затронута актуальная для нашего времени. ...
Перекресток трех дорог - Татьяна Степанова
