Генеративный искусственный интеллект. Как ИИ меняет нашу жизнь и работу - Нума Дхамани
Книгу Генеративный искусственный интеллект. Как ИИ меняет нашу жизнь и работу - Нума Дхамани читаем онлайн бесплатно полную версию! Чтобы начать читать не надо регистрации. Напомним, что читать онлайн вы можете не только на компьютере, но и на андроид (Android), iPhone и iPad. Приятного чтения!
Шрифт:
Интервал:
Закладка:
А теперь давайте рассмотрим датасет всего сайта социальной сети Reddit или большей его части. Преимущества существенны: он включает в себя миллионы бесед между людьми, в которых отражена динамика диалога. Контент Reddit, как и других источников, уточняет внутреннее представление различных токенов в модели. Чем чаще модель будет встречать слово или фразу в обучающем наборе, тем лучше она сможет определить, когда это слово или фразу нужно сгенерировать. Однако некоторые разделы Reddit содержат огромное количество неприемлемых высказываний, в том числе расовые оскорбления или пренебрежительные шутки, опасные теории заговоров или дезинформацию, экстремистские идеологии и ненормативную лексику. При сборе большого количества данных из интернета практически неизбежно будет попадаться подобный тип контента, из-за чего сама модель может быть склонна к порождению речи такого типа. Кроме того, серьезные последствия имеет использование данных, которые могут являться личной информацией или материалами, защищенными авторским правом.
Кроме того, существуют также трудно уловимые предвзятости, которые могут проявляться в LLM через обучающие данные. Термин «предвзятость» чрезвычайно широко используется в машинном обучении, причем в разнообразных контекстах: иногда люди обозначают им статистическую предвзятость, которая подразумевает, что средний прогноз их модели отличается от истинного значения; обучающий набор данных может называться предвзятым, если в нем наблюдаются иные статистические закономерности, нежели в тестовом датасете, который часто берется совершенно случайно. Чтобы избежать путаницы, мы будем использовать «предвзятость» исключительно для обозначения несопоставимых результатов, которые модель может выдавать в зависимости от таких признаков личной идентичности, как раса, пол, класс, возраст или религия. Предвзятость – это давняя проблема алгоритмов машинного обучения, и она может по-разному в них проявляться, но важно помнить, что, по сути, эти модели отражают закономерности в тексте, на котором они обучались. Если в наших книгах, средствах массовой информации и социальных сетях существует предвзятость, то она отразится в наших языковых моделях.
ПРЕДВЗЯТОСТЬ – это склонность модели генерировать несопоставимые результаты в зависимости от таких признаков личной идентичности, как раса, пол, класс, возраст или религия.
Некоторые самые ранние языковые модели общего назначения, обученные на больших объемах неразмеченных наборов данных, создавались для того, чтобы получить числовые или векторные представления слов [17]. Сегодня каждая LLM фактически создает свои собственные векторные представления слов, которые мы называем ее внутренними представлениями. Еще до появления LLM всем, кто занимался компьютерной обработкой естественного языка, необходимо было как-то реализовать этап обработки текста для его численного представления, чтобы компьютерный алгоритм мог с ним работать. Векторное представление позволяет преобразовывать текст в осмысленные представления слов в виде числовых точек в трехмерном пространстве. У слов, которые используются в похожем контексте, например «огурец» и «корнишон», векторные представления будут располагаться близко друг к другу, а у слов «огурец» и «философия» они будут находиться далеко друг от друга (см. рис. 1.4). Придумано множество более простых способов представить слова в виде чисел: простейший, по сути, заключается в том, чтобы каждому уникальному слову в обучающих данных просто назначить случайную точку в числовом пространстве. Однако векторные представления позволяют зафиксировать гораздо больше информации о семантическом значении слова и создать более совершенные модели.
Рис. 1.4. Представление слов в векторной форме
В хорошо известной статье «Мужчина соотносится с программистом так же, как женщина с домохозяйкой? Избавляемся от предвзятости в векторных представлениях» (Man is to Computer Programmer as Woman is to Homemaker? Debiasing Word Embeddings) о векторном представлении слов, полученном на основе обучающих данных из Google News, ученые из Бостонского университета в сотрудничестве с Microsoft Research продемонстрировали, что векторы слов внутри самой модели показывали сильные гендерные стереотипы [18]как в отношении профессий, так и в отношении описаний24. Авторы разработали оценочное задание, в котором модель должна была генерировать аналогии «она – он» на основе своих векторных представлений. Некоторые результаты были безобидными, например: сестра – брат, королева – король. Однако модель создала и другие аналогии «она – он» с явно неравноценными ролями: медсестра – врач (или хирург), косметолог – фармацевт, дизайнер интерьеров – архитектор. Основная причина такой предвзятости объясняется просто тем, что в новостных статьях, которые входят в набор данных, в качестве архитекторов чаще всего упоминаются мужчины, а в качестве медсестер – женщины и так далее. Таким образом, модель отражает и фактически усиливает неравенство, существующее в обществе.
LLM, как и векторные представления слов, подвержены этой предвзятости. В статье 2021 года под заголовком «Об опасностях стохастических попугаев: могут ли языковые модели быть слишком большими?» (On the Dangers of Stochastic Parrots: Can Language Models Be Too Big?) авторы показали, как большие языковые модели отражают и усиливают предвзятость, существующую в обучающих данных25. Несмотря на то, что есть методы устранения предвзятости в моделях и способы более аккуратного обучения, чрезвычайно сложно устранить ассоциации с полом, расой, сексуальной ориентацией и другими характеристиками, которые глубоко укоренились в повседневной жизни, или несопоставимость в данных, существовавшую веками. В итоге, если в контексте или промпте [19] присутствуют подобные характеристики, например пол или раса, LLM могут генерировать совершенно разные результаты.
1.5.2. Весьма правдоподобные, но неверные ответы
После того, как были выпущены ChatGPT от OpenAI и поисковая система Bing на базе ChatGPT в сотрудничестве с Microsoft, компания Google тоже выпустила своего собственного чат-бота Bard. Во время презентации в прямом эфире транслировалось видео, в котором чат-боту Bard задавали вопросы, а он отвечал на них. Один из вопросов звучал так: «О каких новых открытиях, сделанных космическим телескопом „Джеймс Уэбб“ (JWST), я могу рассказать своему девятилетнему ребенку?» В видео Bard рассказывает о JWST и в числе прочего упоминает, что этот телескоп впервые сделал фотографии экзопланет, то есть планет за пределами Солнечной системы. Одна (большая) ошибка: первые экзопланеты были сфотографированы более десяти лет назад несколькими старыми телескопами. Астрономы и астрофизики сразу же начали говорить об этом в X (Twitter) и сообщать по другим каналам; компания Google удалила ролик и запись видео на YouTube сразу после окончания трансляции. Но удар был нанесен, и в первые дни после запуска акции Google упали примерно на 9 %, при этом общая потеря рыночной капитализации составила около 100 миллиардов долларов26.
LLM очень трудно избежать такого типа ошибок, поскольку они не изучают текст и не могут понимать его суть так, как это делают люди. Они просто
Прочитали книгу? Предлагаем вам поделится своим отзывом от прочитанного(прослушанного)! Ваш отзыв будет полезен читателям, которые еще только собираются познакомиться с произведением.
Уважаемые читатели, слушатели и просто посетители нашей библиотеки! Просим Вас придерживаться определенных правил при комментировании литературных произведений.
- 1. Просьба отказаться от дискриминационных высказываний. Мы защищаем право наших читателей свободно выражать свою точку зрения. Вместе с тем мы не терпим агрессии. На сайте запрещено оставлять комментарий, который содержит унизительные высказывания или призывы к насилию по отношению к отдельным лицам или группам людей на основании их расы, этнического происхождения, вероисповедания, недееспособности, пола, возраста, статуса ветерана, касты или сексуальной ориентации.
- 2. Просьба отказаться от оскорблений, угроз и запугиваний.
- 3. Просьба отказаться от нецензурной лексики.
- 4. Просьба вести себя максимально корректно как по отношению к авторам, так и по отношению к другим читателям и их комментариям.
Надеемся на Ваше понимание и благоразумие. С уважением, администратор knigkindom.ru.
Оставить комментарий
-
Гость Читатель23 март 22:10
Адмну, модератору....мне понравился ваш сайт у вас очень порядочные книги про попаданцев....... спасибо...
Маринка, хозяйка корчмы - Ульяна Гринь
-
Гость Читатель23 март 20:10
Книга понравилась, хотя я не любитель зоологии...... но в книге все вполне прилично и порядочно, не то что в других противно...
Кухарка для дракона - Ада Нэрис
-
Гость Галина22 март 07:37
Очень интересная книга, тема затронута актуальная для нашего времени. ...
Перекресток трех дорог - Татьяна Степанова
