KnigkinDom.org» » »📕 Генеративный искусственный интеллект. Как ИИ меняет нашу жизнь и работу - Нума Дхамани

Генеративный искусственный интеллект. Как ИИ меняет нашу жизнь и работу - Нума Дхамани

Книгу Генеративный искусственный интеллект. Как ИИ меняет нашу жизнь и работу - Нума Дхамани читаем онлайн бесплатно полную версию! Чтобы начать читать не надо регистрации. Напомним, что читать онлайн вы можете не только на компьютере, но и на андроид (Android), iPhone и iPad. Приятного чтения!

1 ... 60 61 62 63 64 65 66 67 68 ... 91
Перейти на страницу:

Шрифт:

-
+

Интервал:

-
+

Закладка:

Сделать
пример показан на рис. 8.3.

Рис. 8.3. Карточка для набора данных databricks-dolly‐15k

Разработчики больших языковых моделей являются как создателями наборов данных, так и потребителями. Создаваемые ими датасеты на самом деле являются суперсетами, состоящими из множества других наборов данных, которые могут быть хорошо или плохо задокументированными, но почти наверняка изначально не предназначенными для использования при обучении генеративных моделей. Это не обязательно плохо: единственный способ, с помощью которого модели учатся генерировать язык, – проглатывание огромных объемов текстов, написанных для других целей, будь то искусство, юмор или простой обмен информацией. Но когда никто не знает, из чего состоят данные, как это часто бывает с генеративными моделями, их содержание может оказаться неточным, неуместным, расистским, сексистским, экстремистским или жестоким. Они могут содержать личную информацию и не содержать необходимый контекст. Разработчикам LLM, вероятно, сложно гарантировать, что ни одна из этих проблем не присутствует в их данных, но они должны приложить все усилия, чтобы определить безопасность источников данных и то, как разный состав данных влияет на модель. Конечно, на этом их ответственность не заканчивается – им также необходимо выбрать стратегии обучения, которые будут устранять неизбежные недостатки в данных.

Детальное понимание своих данных является не только лучшей практикой, но и может стать законом. Ожидается, что Закон ЕС об искусственном интеллекте [103] станет первым крупным законодательным актом, регулирующим использование этой технологии в мире, и в 2023 году агентство Reuters сообщило, что законодатели добавили новое положение, которое будет сосредоточено на документировании и снижении рисков. В частности, оно будет требовать, чтобы компании, занимающиеся генеративным ИИ, использовали только «подходящие» наборы данных, составляли «обширную техническую документацию и понятные инструкции по использованию», а также указывали «защищенные авторским правом материалы в наборах данных, которые они используют»19. Последнее дополнение было нацелено на модели для генерации изображений, поскольку уже известно, что такие компании, как Midjourney, использовали «сотни миллионов» защищенных авторским правом изображений в своих обучающих наборах данных, но его можно точно так же применить и к языковым моделям, которые часто содержат защищенные авторским правом материалы, включая книги и статьи, а также лицензионный код20.

8.3.2. Защита конфиденциальности данных

В вопросе конфиденциальности данных в генеративных моделях важна роль каждого: и разработчиков, и пользователей, и политиков, и широкой общественности. Разработчики больших языковых моделей должны приложить разумные усилия, чтобы исключить из процесса обучения те источники, которые явно содержат значительное количество персональных данных. Например, системы блокировки спама десятилетиями обучались на базах данных электронных писем – модель училась предсказывать, является ли конкретное письмо спамом. В случае с LLM риски при использовании датасетов электронных писем намного выше. Существует вероятность того, что модель сгенерирует текст, который видела при обучении, и в него может просочиться секретная или конфиденциальная информация, как это было в примере из главы 2, когда LLM, обученная на корпоративных письмах, в точности сгенерировала номера кредитных карт и социального страхования. Компания Google, которая обслуживает миллионы пользователей по всему миру, предлагая офисное ПО, например Gmail и Docs, заявила, что не использует эти данные для обучения генеративных моделей без разрешения пользователя21. Однако в отсутствие каких-либо юридических ограничений нетрудно представить, что технологическая компания с огромными массивами пользовательских данных захочет использовать их в качестве конкурентного преимущества, например для создания персонализированной электронной почты на основе сообщений самого же пользователя, несмотря на угрозы для конфиденциальности.

Мы знаем точно, что Google действительно использует анонимизированные данные для таких функций, как проверка орфографии и Smart Compose – разновидности автозаполнения в Docs. Анонимизация данных снижает риск, связанный с попаданием конфиденциальных данных в обучающий набор, но методы повышения конфиденциальности (privacy-enhancing technologies, PETs), например дифференциальную приватность, довольно сложно реализовать. Более простые методы, такие как обнаружение персональной информации, ее обфускация и маскировка, тоже имеют свои недостатки: выявить все данные, по которым можно установить личность, сложно, а маскировка этих данных во время обучения LLM может иметь непредвиденные последствия при генерации ответов, поскольку при этом не сохраняются статистические свойства текста. Мы надеемся, что согласованные усилия ученых в области методов повышения конфиденциальности приведут к усовершенствованиям, которые с готовностью примут поставщики LLM.

Пока же компании должны четко формулировать свои политики и методы в отношении защиты данных и соответствующим образом регулировать ожидания пользователей. Как минимум они должны описать, какие данные собирают, как их используют, а также разработать механизм, позволяющий пользователям отказываться от использования данных или удалять их. При использовании LLM, особенно в профессиональной области, люди должны ознакомиться с этими политиками и дважды подумать, перед тем как вводить какую-либо личную информацию. Несколько крупных работодателей, включая Samsung и Amazon, уже ограничили использование ChatGPT для своих сотрудников в рабочем процессе из-за угрозы нарушения конфиденциальности данных.

Хотя опасения по поводу конфиденциальности данных в контексте LLM являются относительно новыми, они далеко не уникальны. Сбор, обмен и продажа персональных данных были главными проблемами на протяжении всего существования интернет-экономики. И хотя нормативно-правовое регулирование в этой сфере должно было постепенно развиваться, основным регулирующим документом остается Общий регламент по защите персональных данных, принятый Европейским союзом в 2018 году. После принятия этого закона использование персональных данных в алгоритмах машинного обучения стало объектом пристального внимания и останется важным элементом в более широком контексте законодательного регулирования ИИ.

8.3.3. Объяснимость, прозрачность и предвзятость

Документирование датасетов – только один кусочек пазла прозрачности. Если мы хотим, чтобы большие языковые модели и другие модели генеративного ИИ использовались успешно и ответственно, они должны сопровождаться определенным уровнем гарантий производительности. Производительность может оцениваться множеством различных метрик, и разработчики могут использовать разные метрики для своих моделей в зависимости от того, что их больше всего волнует. Производительность LLM можно оценить c помощью стандартных бенчмарков [104] и сообщить о полученных результатах при выпуске модели (хотя при проведении таких оценок есть тонкие нюансы, например, изменение форматирования текста может заметно повлиять на результаты тестов). Теоретически это позволило бы пользователям сделать более осознанный выбор, какую LLM использовать и подходят ли они в принципе для их потребностей.

Чтобы проиллюстрировать такой подход, мы перечислили в таблице 8.1 самые последние (по состоянию на август 2023 года) результаты выполнения популярного бенчмарка по генерации кода HumanEval. Каждая задача в бенчмарке представляет собой простую задачу по программированию; ключевая метрика «Pass@1» показывает процент задач, для которых модель выдает корректно работающий код с первой попытки. Таким образом, если кто-то регулярно использует LLM, он мог бы посмотреть эту таблицу лидеров и выбрать самую производительную модель (в данном случае это Reflexion,

1 ... 60 61 62 63 64 65 66 67 68 ... 91
Перейти на страницу:
Отзывы - 0

Прочитали книгу? Предлагаем вам поделится своим отзывом от прочитанного(прослушанного)! Ваш отзыв будет полезен читателям, которые еще только собираются познакомиться с произведением.


Уважаемые читатели, слушатели и просто посетители нашей библиотеки! Просим Вас придерживаться определенных правил при комментировании литературных произведений.

  • 1. Просьба отказаться от дискриминационных высказываний. Мы защищаем право наших читателей свободно выражать свою точку зрения. Вместе с тем мы не терпим агрессии. На сайте запрещено оставлять комментарий, который содержит унизительные высказывания или призывы к насилию по отношению к отдельным лицам или группам людей на основании их расы, этнического происхождения, вероисповедания, недееспособности, пола, возраста, статуса ветерана, касты или сексуальной ориентации.
  • 2. Просьба отказаться от оскорблений, угроз и запугиваний.
  • 3. Просьба отказаться от нецензурной лексики.
  • 4. Просьба вести себя максимально корректно как по отношению к авторам, так и по отношению к другим читателям и их комментариям.

Надеемся на Ваше понимание и благоразумие. С уважением, администратор knigkindom.ru.


Партнер

Новые отзывы

  1. Гость Читатель Гость Читатель23 март 22:10 Адмну, модератору....мне понравился ваш сайт у вас очень порядочные книги про попаданцев....... спасибо... Маринка, хозяйка корчмы - Ульяна Гринь
  2. Гость Читатель Гость Читатель23 март 20:10 Книга понравилась, хотя я не любитель зоологии...... но в книге все вполне прилично и порядочно, не то что в других противно... Кухарка для дракона - Ада Нэрис
  3. Гость Галина Гость Галина22 март 07:37 Очень интересная книга, тема затронута актуальная для нашего времени. ... Перекресток трех дорог - Татьяна Степанова
Все комметарии
Новое в блоге