KnigkinDom.org» » »📕 Генеративный искусственный интеллект. Как ИИ меняет нашу жизнь и работу - Нума Дхамани

Генеративный искусственный интеллект. Как ИИ меняет нашу жизнь и работу - Нума Дхамани

Книгу Генеративный искусственный интеллект. Как ИИ меняет нашу жизнь и работу - Нума Дхамани читаем онлайн бесплатно полную версию! Чтобы начать читать не надо регистрации. Напомним, что читать онлайн вы можете не только на компьютере, но и на андроид (Android), iPhone и iPad. Приятного чтения!

1 ... 12 13 14 15 16 17 18 19 20 ... 91
Перейти на страницу:

Шрифт:

-
+

Интервал:

-
+

Закладка:

Сделать
назначения GPT‐3 была обучена на 45 терабайтах (Тб) текстовых данных3, причем 1 Тб, по оценкам, содержит 75 миллионов страниц4. При работе с огромным количеством необработанных и недокументированных обучающих данных никто не может быть уверен в том, что именно они содержат, и это приводит к тому, что LLM запоминает и воспроизводит стереотипные и оскорбительные ассоциации, а также иногда и конфиденциальные данные, включая информацию, позволяющую установить личность (personally identifiable information, PII). В этом разделе мы продолжим обсуждение потенциального вреда и уязвимостей, которые возникают при обучении языковых моделей на неизмеримо больших объемах текстовых данных.

2.3.1. Закодированная предвзятость

Уже хорошо задокументировано отрицательное свойство больших языковых моделей – запоминать и воспроизводить вредные стереотипы, дискриминационные высказывания по признаку пола, сексуальной ориентации, расы, этнической принадлежности, религии, возраста и статуса инвалидности5. Есть несколько причин, почему предвзятость и вредные стереотипы запоминаются моделью при обучении на датасетах, построенных на информации из интернета. Во-первых, эти ассоциации в значительной степени являются отражением особенностей собранных таким образом обучающих данных. По мере того, как языковая модель усваивает особенности и закономерности языка, чтобы генерировать текст, похожий на человеческий, она наследует человеческие предрассудки, историческую несправедливость и культурные ассоциации, которые могут быть негативными и оскорбительными. Во-вторых, в обучающих данных не хватает разнообразия. Набор данных может быть предвзятым, потому что некоторые сообщества представлены в нем лучше, чем другие, а также набор данных может не в полной мере репрезентировать различные взгляды людей на мир. В-третьих, развитие и изменение социальных взглядов может привести к тому, что языковые модели будут неправильно интерпретировать смысл этих изменений.

В главе 1 мы вкратце обсудили, как векторное представление слова внутри модели отражает неравенства, существующие в обществе. В одном из первых исследований предвзятости в векторных представлениях слов авторы, чтобы определить потенциальное воздействие, изучали приложения NLP с использованием этой технологии6. Сначала они рассмотрели анализ сентимента текста, который классифицировал текст как позитивный, негативный или нейтральный. Задача, в частности, состояла в том, чтобы рассчитать сентимент для рецензий к фильмам, что в дальнейшем может пригодиться в маркетинге. Результаты показали, что рецензии на фильмы, в которых упоминались европейские и американские имена, имели в среднем более положительные оценки, чем те, где были прописаны афроамериканские имена, даже если в остальном рецензии были похожи. Это означает, что сентимент текста содержит в себе расовую предвзятость в отношении имен актеров и персонажей в рецензиях. Затем они изучили машинный перевод и пришли к выводу, что перевод с гендерно-нейтральных языков на английский приводит к появлению предложений, дискриминирующих по полу. В своей статье они показали, как Google Translate переводит турецкие предложения с бесполыми местоимениями на английский: «O bir doktor. O bir hemşire» – «He is a doctor. She is a nurse» («Он доктор, она медсестра»).

Аналогичная ситуация с LLM: они не только воспроизводят стереотипы, но и усиливают их. В исследовании, посвященном изучению религиозных предубеждений в языковых моделях, авторы пришли к выводу, что GPT‐3 отражает предубеждение относительно мусульманского насилия, а также антисемитские предрассудки7. Они обнаружили, что при появлении слова «мусульманин» в промптах, модель в 23 % случаев включает слово «террорист» в ответы, а слово «еврей» она в 5 % случаев связывает со словом «деньги». Затем они показали, что если заменить слово «мусульманин» на другие религиозные группы, то GPT‐3 значительно реже будет включать в ответы ключевые слова, связанные с насилием. LLM также преувеличивают дискриминационные предубеждения по признаку пола, расы и профессии. Было обнаружено, что в вымышленных историях, сгенерированных GPT‐3, женские персонажи были описаны как менее сильные по сравнению с мужскими и чаще ассоциировались с семьей и внешностью8. Другие LLM, такие как BERT и GPT‐2, также демонстрируют сильные стереотипные предубеждения. Например, для Африки определяющими словами были «бедный» и «темный», а для разработчиков программного обеспечения – «гик» и «ботаник»9.

Теперь давайте рассмотрим вторую причину, из-за которой предвзятость так устойчиво проявляется в LLM: недостаток разнообразия в обучающем наборе данных. Как мы уже говорили, количество – это еще не качество. Чтобы представить взгляды и ценности различных людей и групп целостно, важно собрать обучающие данные, которые будут разнообразными и широко отражать точки зрения разных сообществ. В статье «Об опасностях стохастических попугаев: могут ли языковые модели быть слишком большими?» авторы исследуют несколько аспектов и определяют, что в обучающих данных взгляды различных людей представлены неравномерно5. Как мы знаем, Reddit и Wikipedia – это два широко используемых набора данных для обучения LLM. Авторы говорят о том, что 67 % пользователей Reddit – мужчины и 64 % – люди в возрасте от 18 до 29 лет; аналогичная ситуация с пользователями Wikipedia: только 8,8–15 % из них – женщины или девушки. Они также говорят о том, что распространенные практики чистки наборов данных еще больше ослабляют голоса недостаточно представленных сообществ. Например, в ходе обучения GPT‐3 набор данных Common Crawl фильтруется путем поиска документов, которые по качеству похожи на документы из Reddit и Wikipedia, а затем они дополнительно очищаются от страниц, содержащих список из 400 стоп-слов, связанных с полом, расовыми оскорблениями или превосходством белой расы. Авторы утверждают, что, хотя эта стратегия может эффективно отфильтровывать определенные виды порнографии и разжигание ненависти, она непреднамеренно подавляет дискурс маргинализированных групп населения.

В упомянутой выше статье авторы Бендер, Гебру и другие обсуждают также проблемы, связанные с постоянно меняющимися общественными движениями, когда в онлайн-дискурсе какие-то мнения могут оказаться слишком широко представленными или не отражаться вообще – и на таких данных в конечном итоге обучаются LLM. В качестве конкретного примера исследователи обнаружили, что «чрезмерное внимание» в Wikipedia к «Движению за жизнь чернокожих» (Black Lives Matter, BLM) усиливает утверждения BLM о том, что насилие со стороны полиции является систематической проблемой в Соединенных Штатах10. До того, как движение привлекло особое внимание к этой проблеме, данные Wikipedia о насилии со стороны полиции, описывающие отдельные случаи, могли бы рассказать совсем другую историю. Это, конечно, становится особенно актуальным, если учитывать, что сбор обучающих датасетов, как и само обучение модели, проводится нечасто из-за трудоемкости и дороговизны с точки зрения вычислений.

В совместном исследовании, проведенном Университетом Бата и Принстонским университетом, исследователи показывают, почему устранение предвзятости в машинном обучении является сложной задачей6. Во-первых, они демонстрируют, что предвзятость идентична смыслу, поэтому невозможно осмысленно использовать язык без встраивания человеческой предвзятости. Во-вторых, они обсуждают невозможность алгоритмического определения предвзятости, поскольку наше общественное понимание постоянно развивается и к тому же варьируется в зависимости от культуры. Наконец, они показывают, что существуют некоторые исторические контексты, в которых людям важно сохранить и отразить это неравенство.

Уже предпринимались попытки устранить эту предвзятость в векторных представлениях слов в языковых моделях

1 ... 12 13 14 15 16 17 18 19 20 ... 91
Перейти на страницу:
Отзывы - 0

Прочитали книгу? Предлагаем вам поделится своим отзывом от прочитанного(прослушанного)! Ваш отзыв будет полезен читателям, которые еще только собираются познакомиться с произведением.


Уважаемые читатели, слушатели и просто посетители нашей библиотеки! Просим Вас придерживаться определенных правил при комментировании литературных произведений.

  • 1. Просьба отказаться от дискриминационных высказываний. Мы защищаем право наших читателей свободно выражать свою точку зрения. Вместе с тем мы не терпим агрессии. На сайте запрещено оставлять комментарий, который содержит унизительные высказывания или призывы к насилию по отношению к отдельным лицам или группам людей на основании их расы, этнического происхождения, вероисповедания, недееспособности, пола, возраста, статуса ветерана, касты или сексуальной ориентации.
  • 2. Просьба отказаться от оскорблений, угроз и запугиваний.
  • 3. Просьба отказаться от нецензурной лексики.
  • 4. Просьба вести себя максимально корректно как по отношению к авторам, так и по отношению к другим читателям и их комментариям.

Надеемся на Ваше понимание и благоразумие. С уважением, администратор knigkindom.ru.


Партнер

Новые отзывы

  1. Гость Читатель Гость Читатель23 март 22:10 Адмну, модератору....мне понравился ваш сайт у вас очень порядочные книги про попаданцев....... спасибо... Маринка, хозяйка корчмы - Ульяна Гринь
  2. Гость Читатель Гость Читатель23 март 20:10 Книга понравилась, хотя я не любитель зоологии...... но в книге все вполне прилично и порядочно, не то что в других противно... Кухарка для дракона - Ада Нэрис
  3. Гость Галина Гость Галина22 март 07:37 Очень интересная книга, тема затронута актуальная для нашего времени. ... Перекресток трех дорог - Татьяна Степанова
Все комметарии
Новое в блоге