Генеративный искусственный интеллект. Как ИИ меняет нашу жизнь и работу - Нума Дхамани
Книгу Генеративный искусственный интеллект. Как ИИ меняет нашу жизнь и работу - Нума Дхамани читаем онлайн бесплатно полную версию! Чтобы начать читать не надо регистрации. Напомним, что читать онлайн вы можете не только на компьютере, но и на андроид (Android), iPhone и iPad. Приятного чтения!
Шрифт:
Интервал:
Закладка:
2.3.1. Закодированная предвзятость
Уже хорошо задокументировано отрицательное свойство больших языковых моделей – запоминать и воспроизводить вредные стереотипы, дискриминационные высказывания по признаку пола, сексуальной ориентации, расы, этнической принадлежности, религии, возраста и статуса инвалидности5. Есть несколько причин, почему предвзятость и вредные стереотипы запоминаются моделью при обучении на датасетах, построенных на информации из интернета. Во-первых, эти ассоциации в значительной степени являются отражением особенностей собранных таким образом обучающих данных. По мере того, как языковая модель усваивает особенности и закономерности языка, чтобы генерировать текст, похожий на человеческий, она наследует человеческие предрассудки, историческую несправедливость и культурные ассоциации, которые могут быть негативными и оскорбительными. Во-вторых, в обучающих данных не хватает разнообразия. Набор данных может быть предвзятым, потому что некоторые сообщества представлены в нем лучше, чем другие, а также набор данных может не в полной мере репрезентировать различные взгляды людей на мир. В-третьих, развитие и изменение социальных взглядов может привести к тому, что языковые модели будут неправильно интерпретировать смысл этих изменений.
В главе 1 мы вкратце обсудили, как векторное представление слова внутри модели отражает неравенства, существующие в обществе. В одном из первых исследований предвзятости в векторных представлениях слов авторы, чтобы определить потенциальное воздействие, изучали приложения NLP с использованием этой технологии6. Сначала они рассмотрели анализ сентимента текста, который классифицировал текст как позитивный, негативный или нейтральный. Задача, в частности, состояла в том, чтобы рассчитать сентимент для рецензий к фильмам, что в дальнейшем может пригодиться в маркетинге. Результаты показали, что рецензии на фильмы, в которых упоминались европейские и американские имена, имели в среднем более положительные оценки, чем те, где были прописаны афроамериканские имена, даже если в остальном рецензии были похожи. Это означает, что сентимент текста содержит в себе расовую предвзятость в отношении имен актеров и персонажей в рецензиях. Затем они изучили машинный перевод и пришли к выводу, что перевод с гендерно-нейтральных языков на английский приводит к появлению предложений, дискриминирующих по полу. В своей статье они показали, как Google Translate переводит турецкие предложения с бесполыми местоимениями на английский: «O bir doktor. O bir hemşire» – «He is a doctor. She is a nurse» («Он доктор, она медсестра»).
Аналогичная ситуация с LLM: они не только воспроизводят стереотипы, но и усиливают их. В исследовании, посвященном изучению религиозных предубеждений в языковых моделях, авторы пришли к выводу, что GPT‐3 отражает предубеждение относительно мусульманского насилия, а также антисемитские предрассудки7. Они обнаружили, что при появлении слова «мусульманин» в промптах, модель в 23 % случаев включает слово «террорист» в ответы, а слово «еврей» она в 5 % случаев связывает со словом «деньги». Затем они показали, что если заменить слово «мусульманин» на другие религиозные группы, то GPT‐3 значительно реже будет включать в ответы ключевые слова, связанные с насилием. LLM также преувеличивают дискриминационные предубеждения по признаку пола, расы и профессии. Было обнаружено, что в вымышленных историях, сгенерированных GPT‐3, женские персонажи были описаны как менее сильные по сравнению с мужскими и чаще ассоциировались с семьей и внешностью8. Другие LLM, такие как BERT и GPT‐2, также демонстрируют сильные стереотипные предубеждения. Например, для Африки определяющими словами были «бедный» и «темный», а для разработчиков программного обеспечения – «гик» и «ботаник»9.
Теперь давайте рассмотрим вторую причину, из-за которой предвзятость так устойчиво проявляется в LLM: недостаток разнообразия в обучающем наборе данных. Как мы уже говорили, количество – это еще не качество. Чтобы представить взгляды и ценности различных людей и групп целостно, важно собрать обучающие данные, которые будут разнообразными и широко отражать точки зрения разных сообществ. В статье «Об опасностях стохастических попугаев: могут ли языковые модели быть слишком большими?» авторы исследуют несколько аспектов и определяют, что в обучающих данных взгляды различных людей представлены неравномерно5. Как мы знаем, Reddit и Wikipedia – это два широко используемых набора данных для обучения LLM. Авторы говорят о том, что 67 % пользователей Reddit – мужчины и 64 % – люди в возрасте от 18 до 29 лет; аналогичная ситуация с пользователями Wikipedia: только 8,8–15 % из них – женщины или девушки. Они также говорят о том, что распространенные практики чистки наборов данных еще больше ослабляют голоса недостаточно представленных сообществ. Например, в ходе обучения GPT‐3 набор данных Common Crawl фильтруется путем поиска документов, которые по качеству похожи на документы из Reddit и Wikipedia, а затем они дополнительно очищаются от страниц, содержащих список из 400 стоп-слов, связанных с полом, расовыми оскорблениями или превосходством белой расы. Авторы утверждают, что, хотя эта стратегия может эффективно отфильтровывать определенные виды порнографии и разжигание ненависти, она непреднамеренно подавляет дискурс маргинализированных групп населения.
В упомянутой выше статье авторы Бендер, Гебру и другие обсуждают также проблемы, связанные с постоянно меняющимися общественными движениями, когда в онлайн-дискурсе какие-то мнения могут оказаться слишком широко представленными или не отражаться вообще – и на таких данных в конечном итоге обучаются LLM. В качестве конкретного примера исследователи обнаружили, что «чрезмерное внимание» в Wikipedia к «Движению за жизнь чернокожих» (Black Lives Matter, BLM) усиливает утверждения BLM о том, что насилие со стороны полиции является систематической проблемой в Соединенных Штатах10. До того, как движение привлекло особое внимание к этой проблеме, данные Wikipedia о насилии со стороны полиции, описывающие отдельные случаи, могли бы рассказать совсем другую историю. Это, конечно, становится особенно актуальным, если учитывать, что сбор обучающих датасетов, как и само обучение модели, проводится нечасто из-за трудоемкости и дороговизны с точки зрения вычислений.
В совместном исследовании, проведенном Университетом Бата и Принстонским университетом, исследователи показывают, почему устранение предвзятости в машинном обучении является сложной задачей6. Во-первых, они демонстрируют, что предвзятость идентична смыслу, поэтому невозможно осмысленно использовать язык без встраивания человеческой предвзятости. Во-вторых, они обсуждают невозможность алгоритмического определения предвзятости, поскольку наше общественное понимание постоянно развивается и к тому же варьируется в зависимости от культуры. Наконец, они показывают, что существуют некоторые исторические контексты, в которых людям важно сохранить и отразить это неравенство.
Уже предпринимались попытки устранить эту предвзятость в векторных представлениях слов в языковых моделях
Прочитали книгу? Предлагаем вам поделится своим отзывом от прочитанного(прослушанного)! Ваш отзыв будет полезен читателям, которые еще только собираются познакомиться с произведением.
Уважаемые читатели, слушатели и просто посетители нашей библиотеки! Просим Вас придерживаться определенных правил при комментировании литературных произведений.
- 1. Просьба отказаться от дискриминационных высказываний. Мы защищаем право наших читателей свободно выражать свою точку зрения. Вместе с тем мы не терпим агрессии. На сайте запрещено оставлять комментарий, который содержит унизительные высказывания или призывы к насилию по отношению к отдельным лицам или группам людей на основании их расы, этнического происхождения, вероисповедания, недееспособности, пола, возраста, статуса ветерана, касты или сексуальной ориентации.
- 2. Просьба отказаться от оскорблений, угроз и запугиваний.
- 3. Просьба отказаться от нецензурной лексики.
- 4. Просьба вести себя максимально корректно как по отношению к авторам, так и по отношению к другим читателям и их комментариям.
Надеемся на Ваше понимание и благоразумие. С уважением, администратор knigkindom.ru.
Оставить комментарий
-
Гость Читатель23 март 22:10
Адмну, модератору....мне понравился ваш сайт у вас очень порядочные книги про попаданцев....... спасибо...
Маринка, хозяйка корчмы - Ульяна Гринь
-
Гость Читатель23 март 20:10
Книга понравилась, хотя я не любитель зоологии...... но в книге все вполне прилично и порядочно, не то что в других противно...
Кухарка для дракона - Ада Нэрис
-
Гость Галина22 март 07:37
Очень интересная книга, тема затронута актуальная для нашего времени. ...
Перекресток трех дорог - Татьяна Степанова
