Генеративный искусственный интеллект. Как ИИ меняет нашу жизнь и работу - Нума Дхамани
Книгу Генеративный искусственный интеллект. Как ИИ меняет нашу жизнь и работу - Нума Дхамани читаем онлайн бесплатно полную версию! Чтобы начать читать не надо регистрации. Напомним, что читать онлайн вы можете не только на компьютере, но и на андроид (Android), iPhone и iPad. Приятного чтения!
Шрифт:
Интервал:
Закладка:
Таблица 8.1. Таблица лидеров по бенчмарку по генерации кода HumanEval [105]
Когда Meta [106] и Microsoft объявили о выпуске модели Llama 2 – преемника Llama с открытым исходным кодом, – они опубликовали технический отчет, в котором описали не только сравнение производительности Llama 2 с другими LLM по ряду исследовательских бенчмарков, но и процедуру предварительного обучения и тонкой настройки – это был радикальный шаг в эпоху жесткой конкуренции между LLM, где даже небольшие технические улучшения могут рассматриваться как коммерческая тайна. Технический отчет Llama 2 – это информативный документ, который демонстрирует приверженность создателей Llama 2 принципам прозрачности. Популярные исследовательские бенчмарки состоят из таких наборов задач, как MMLU (Massive Multitask Language Understanding) и TriviaQA, через которые можно оценить ответы на вопросы, понимание прочитанного и другие способности. Однако даже по наборам стандартных задач не всегда возможно напрямую сравнить заявленную производительность LLM: в одном техническом отчете может быть указана проверка производительности после трех примеров (насколько хорошо модель справляется с заданием после просмотра трех примеров), а в другом – после 5 примеров по тому же самому типу задач. Поскольку результаты могут быть чувствительны даже к незначительным изменениям, таким как форматирование, то определить, насколько хорошо работают различные LLM будет тем легче, чем больше подробностей будет представлено в техническом отчете.
Кроме базовой модели Llama 2, Meta [107] и Microsoft выпустили Llama 2 Chat, специально настроенную для ведения диалогов и общения с пользователем, похожую по функционалу на ChatGPT и других диалоговых агентов. Чтобы оценить Llama 2 Chat, они сравнивали ее ответы с ответами конкурентных диалоговых агентов с открытым исходным кодом от OpenAI и Google. В роли оценщиков выступали как люди, так и другие языковые модели, специально настроенные для оценки. Людей-оценщиков, которых называют «золотым стандартом оценки естественного языка, сгенерированного моделями», просили выбрать лучший ответ из пары по критериям полезности и безопасности. Модели-оценщики делали то же самое и были настроены выставлять оценки тексту, имитируя предпочтения человека. При таком подходе, как отметили авторы, возникает опасность: «Когда мера становится целью, она перестает быть хорошей мерой» [108]. В данном случае и мерой, и целью являются предпочтения модели-оценщика, и возникают опасения, что они могут оказаться отличными от предпочтений человека. Для минимизации этой проблемы авторы использовали дополнительные модели-оценщики, натренированные на более обширных общедоступных датасетах для моделирования человеческих предпочтений. Модели-оценщики чрезвычайно полезны для проведения крупномасштабных машинных оценок, поскольку могут сравнивать гораздо быстрее и дешевле, чем при «золотом стандарте» человеческих оценок (хотя даже человеческие оценки часто весьма субъективны и могут вызывать разногласия между разными оценщиками)22.
Обратим внимание, что «полезность» ответа (обычно понимаемая как его качество или точность) является не единственным критерием, по которому оцениваются ответы модели. Вторым важным принципом при оценке ответов выступает «безопасность». Отсутствие предвзятости является одним из критериев безопасности, и поэтому важно, чтобы разработчики LLM измеряли степень предвзятости своей модели и предпринимали шаги для ее устранения, используя методы, о которых мы говорили в главе 2. В следующем разделе мы более подробно обсудим безопасность ответов и рассмотрим стратегии обучения, направленные на повышение этой безопасности, а также обсудим тот факт, что невозможно устранить проблемы, которые не измеряются. В этой области тоже есть полезные бенчмарки, которые позволяют проводить сравнения моделей, к тому же теперь разработчики LLM начали сотрудничать и делиться методами и оценками, поскольку предвзятость или небезопасность моделей имеет большую важность. Например, в техническом отчете Llama 2 описаны несколько проверочных бенчмарков для контроля безопасности: TruthfulQA измеряет, насколько хорошо LLM генерируют «правдивые результаты, соответствующие фактам и здравому смыслу»; ToxiGen измеряет «количество различных типов токсичных и дискриминационных выражений в ответах»; BOLD измеряет, «насколько сентимент ответов зависит от демографических характеристик». Llama 2 далека от совершенства, и она, безусловно, может в своих ответах генерировать дезинформацию и ненавистнические высказывания, но такая прозрачность со стороны разработчиков обнадеживает. Опубликованные результаты показывают заметное усовершенствование этой модели по сравнению с LLaMa, но одновремено и то, сколько еще предстоит пройти.
Если модели допускают ошибки, то было бы полезно разобраться, как это происходит. Для LLM самым простым способом определить, почему модель генерирует тот или иной фрагмент текста, – это посмотреть, на какие токены модель больше всего обращала внимание (описание механизма внимания в LLM см. в главе 1). По причине огромного размера LLM запуск и работа алгоритмов, объясняющих работу модели, представляют вычислительную сложность23, и работа по поиску более эффективных методов, позволяющих объяснять появление тех или иных генераций, продолжается24. В зависимости от реализации LLM могут использовать векторные базы данных для улучшения генерации ответов. Например, на основе промпта пользователя модель может формировать запрос в векторную базу данных, которая хранит множество примеров в виде векторных представлений, а затем использовать найденный результат при генерации. Как и векторные представления слов, о которых мы говорили в главе 1, векторные базы данных – более компактные представления текстовых данных. Векторные базы данных могут эффективно использоваться для хранения предыдущих разговоров с пользователем; по мере накопления большего количества сообщений модель будет «запоминать» информацию из предыдущей истории общения, что создаст хороший и более персонализированный опыт для пользователя. Эти базы также могут использоваться для хранения других типов данных, которые могут быть полезны для формирования ответа модели, например фрагментов разговоров для диалоговых агентов. И если пользователь вводит промпт: «Что там за анекдот был старый про клоунов?», модель сначала будет искать в своей базе данных промпты, которые были максимально похожи на этот, и использовать найденные примеры в качестве основы для ответа. Это означает, что модель с большей вероятностью сгенерирует ответ, близкий по содержанию к тому, что уже было использовано в примерах.
LLM с функцией поиска внешней информации, о которых мы говорили в главе 6, работают похожим образом, за исключением того, что вместо запроса к внутреннему хранилищу данных они выполняют поиск в интернете. Обычно это реализуется путем тонкой настройки модели на примерах с демонстрацией того, когда для ответа нужно выполнять поиск в интернете и какое ключевое слово выбрать из входных данных. Если LLM выполняет поиск, запрашивая у поискового API сгенерированное ключевое слово, далее при составлении ответа она будет использовать результаты поиска. Рассмотрим пример следующего промпта: «Какой новый ресторан мне стоит посетить во время поездки в Копенгаген?» LLM может обратиться к векторной базе данных и найти там историю общения с пользователем, который в свое время отклонил предложение модели посетить бразильский стейк-хаус, потому что он вегетарианец. Затем LLM может выполнить поиск по запросу «вегетарианские рестораны в Копенгагене» через API
Прочитали книгу? Предлагаем вам поделится своим отзывом от прочитанного(прослушанного)! Ваш отзыв будет полезен читателям, которые еще только собираются познакомиться с произведением.
Уважаемые читатели, слушатели и просто посетители нашей библиотеки! Просим Вас придерживаться определенных правил при комментировании литературных произведений.
- 1. Просьба отказаться от дискриминационных высказываний. Мы защищаем право наших читателей свободно выражать свою точку зрения. Вместе с тем мы не терпим агрессии. На сайте запрещено оставлять комментарий, который содержит унизительные высказывания или призывы к насилию по отношению к отдельным лицам или группам людей на основании их расы, этнического происхождения, вероисповедания, недееспособности, пола, возраста, статуса ветерана, касты или сексуальной ориентации.
- 2. Просьба отказаться от оскорблений, угроз и запугиваний.
- 3. Просьба отказаться от нецензурной лексики.
- 4. Просьба вести себя максимально корректно как по отношению к авторам, так и по отношению к другим читателям и их комментариям.
Надеемся на Ваше понимание и благоразумие. С уважением, администратор knigkindom.ru.
Оставить комментарий
-
Гость Читатель23 март 22:10
Адмну, модератору....мне понравился ваш сайт у вас очень порядочные книги про попаданцев....... спасибо...
Маринка, хозяйка корчмы - Ульяна Гринь
-
Гость Читатель23 март 20:10
Книга понравилась, хотя я не любитель зоологии...... но в книге все вполне прилично и порядочно, не то что в других противно...
Кухарка для дракона - Ада Нэрис
-
Гость Галина22 март 07:37
Очень интересная книга, тема затронута актуальная для нашего времени. ...
Перекресток трех дорог - Татьяна Степанова
