Данные решают. Как управлять данными, чтобы создавать ценность для бизнеса - Светлана Бова
Книгу Данные решают. Как управлять данными, чтобы создавать ценность для бизнеса - Светлана Бова читаем онлайн бесплатно полную версию! Чтобы начать читать не надо регистрации. Напомним, что читать онлайн вы можете не только на компьютере, но и на андроид (Android), iPhone и iPad. Приятного чтения!
Шрифт:
Интервал:
Закладка:
Вероятно, вы, как судья, вынесете решение в пользу истца. Ведь в цивилизованном обществе необъяснимое решение незаконно — будь то вердикт суда, медицинский диагноз или кредитный скоринг.
Теперь перенесите этого «судью» в кабинет регулятора. Он уже стучится в дверь. И его слова звучат не как запрос, а как требование: «Объясните ваше алгоритмическое решение». Это уже не гипотетическое будущее. Это реальность сегодняшнего дня в ЕС с его Актом об искусственном интеллекте[49], в США — с подходами к «достоверному ИИ» (Trustworthy AI), с российскими и международными кодексами этики в сфере ИИ. И эта волна неумолимо накатывает на весь мир.
Многие компании в ответ на вопросы об объяснимости начинают улучшать сам алгоритм, пытаясь заглянуть в его «черный ящик» с помощью специальных инструментов (XAI — Explainable AI). И это важно. Но хорошо бы не упускать из виду и другую важную часть задачи. Регулятору нужно объяснение не только того, как модель посчитала, но и того, на каких данных она училась и работала. Ведь если ваши данные смещенные, некачественные или предвзятые, даже самый прозрачный алгоритм выдаст несправедливый, опасный или незаконный результат.
Вернемся к нашим героям из Ex Nihilo в главе 5. Марина из маркетинга в восторге от новой ИИ-системы, которая анализирует данные с камер на объектах и соцсети, чтобы предсказать, какой тип фасада будет популярен через год. Система выдает рекомендацию: «Клиенты сегмента “цифровой интегратор” предпочтут сплошное остекление в черных рамах». Это дорого, но Марина уже готовит презентацию.
Но тут в кабинете Андрея Петровича раздается звонок от юриста. Голос на той стороне серьезен: «Андрей Петрович, к нам поступил запрос. Наша система порекомендовала семье с тремя детьми панорамное остекление без учета данных о том, что в их районе зафиксированы случаи вандализма. Рекомендация повышает риски. На каком основании она была сделана? Какие именно данные об истории района и безопасности поступили на вход? Можем ли мы доказать, что учли этот фактор? Если нет, нас ждет иск о недобросовестной рекомендации».
В этот момент все понимают: речь не о «крутости» ИИ, а о двух простых концепциях, которые мы уже обсуждали.
1. Описание данных (например, в каталоге данных): что это были за данные? Откуда они взялись? Что означает поле «коэффициент безопасности района»? Как оно рассчитывалось? Когда обновлялось? Были ли это официальные данные полиции или субъективные оценки агента? Без этого «паспорта» у каждого «кирпичика» данных мы строим дом на песке.
2. Прослеживаемость данных (Data Lineage): как эти данные попали в модель? Были ли они очищены? Как? Кто и когда их скорректировал? Не смешали ли разработчики данные о ценах за 2022 и 2024 годы, не пересчитав инфляцию? Lineage — цифровой аудиторский след, протокол всех преобразований.
Это и есть объяснимость на уровне данных. Это возможность показать регулятору не магию нейросети, а скрупулезный, задокументированный процесс: «Вот сырые данные. Вот их спецификация. Вот этап очистки, вот где мы отфильтровали устаревшие записи. Вот здесь обогатили данными из официального реестра. Вот где ввели весовой коэффициент для параметра безопасности по требованию нашего отдела рисков. И вот — на выходе — обоснованная рекомендация, которую мы готовы защитить».
Опрос IBM очень красноречив[50]: топ-менеджеры уже это понимают. Они чувствуют, что следующий гигантский скачок в ценности данных будет связан не с их объемом, а с их надежностью, качеством и прослеживаемостью. Данные, которые нельзя подтвердить, становятся не активом, а токсичным обязательством.
Эти и похожие инциденты уже происходят в реальности и приводят к настоящим финансовым потерям и репутационному ущербу для ИИ-разработчиков. Рассмотрим несколько громких и известных примеров.
ДИСКРИМИНАЦИОННЫЙ АЛГОРИТМ APPLE CARD И GOLDMAN SACHS
Алгоритм кредитного скоринга для платежных инструментов Apple, управляемый Goldman Sachs, как в нашем примере выше, работал как «черный ящик» и выдавал результаты, которые статистически выглядели как дискриминация по половому признаку. А это прямое нарушение федерального закона Equal Credit Opportunity Act (ECOA) и его аналога на уровне штата Нью-Йорк[51]. Истцами выступала семейная пара, которая вела совместное хозяйство и бюджет, но муж получил кредитный лимит в 20 раз выше, чем жена, хотя последняя имела лучшую кредитную историю. Расследование инициировал Департамент финансовых услуг штата Нью-Йорк (New York Department of Financial Services, NYDFS).
Ключевым моментом стало то, что регулятор не обнаружил явных, «прописанных в коде» дискриминационных правил. Проблема была глубже.
1. Недостаточная прозрачность и объяснимость. Goldman Sachs не смог объяснить регуляторам, почему именно алгоритм выдал такие результаты для конкретных пар. Банк не мог продемонстрировать, какие именно факторы и с каким весом привели к решению, чтобы доказать отсутствие дискриминации.
2. Использование проблемных косвенных данных. Регулятор выявил, что алгоритм мог использовать в модели данные, которые сами по себе коррелируют с полом (например, типы торговых точек, где совершаются покупки). Это и привело к косвенной дискриминации.
3. Отсутствие должного контроля. Внутренние проверки (в том числе со стороны третьей линии защиты — аудита) не смогли адекватно оценить риски дискриминации из-за сложности и непрозрачности модели.
Регулятор предписал независимый аудит процессов управления модельным риском и принятие мер по его результатам и прямо заявил: независимо от уровня сложности алгоритмов модели, разработчик должен понимать, на основании чего принимаются решения в бизнесе, а также обосновать, что на уровне данных, используемых для разработки модели, отсутствует нарушение законов, в том числе о дискриминации по определенным признакам.
СЕКСИСТСКАЯ МОДЕЛЬ ДЛЯ ОТБОРА РЕЗЮМЕ ОТ AMAZON
Компания Amazon разработала модель, обученную на исторических данных о преимущественном найме мужчин в техсфере. Оказалось, что алгоритм дискриминировал женщин, понижая рейтинг резюме со словами типа «женский» или указанием женских колледжей. Поэтому уже в 2018 году Amazon отказалась от разработанного ею ИИ-инструмента для скрининга резюме.
Это не привело к судебным делам и конкретным финансовым потерям, но нанесло компании репутационный ущерб. Если бы разработчики модели контролировали репрезентативность и несмещенность данных в обучающей выборке, инцидента можно было бы избежать и не отказываться от полезной и перспективной ИИ-модели.
СУДЕБНЫЕ ДЕЛА CLEARVIEW AI О НЕЗАКОННОМ ИСПОЛЬЗОВАНИИ ДАННЫХ ДЛЯ ОБУЧЕНИЯ МОДЕЛЕЙ РАСПОЗНАВАНИЯ ЛИЦ
Компания Clearview AI создала мощнейшую систему распознавания лиц, незаконно скопировав миллиарды фотографий из социальных сетей и открытых источников для обучения своих алгоритмов, и с 2020 по 2025 год регулярно получало иски от разных государств и штатов США
Прочитали книгу? Предлагаем вам поделится своим отзывом от прочитанного(прослушанного)! Ваш отзыв будет полезен читателям, которые еще только собираются познакомиться с произведением.
Уважаемые читатели, слушатели и просто посетители нашей библиотеки! Просим Вас придерживаться определенных правил при комментировании литературных произведений.
- 1. Просьба отказаться от дискриминационных высказываний. Мы защищаем право наших читателей свободно выражать свою точку зрения. Вместе с тем мы не терпим агрессии. На сайте запрещено оставлять комментарий, который содержит унизительные высказывания или призывы к насилию по отношению к отдельным лицам или группам людей на основании их расы, этнического происхождения, вероисповедания, недееспособности, пола, возраста, статуса ветерана, касты или сексуальной ориентации.
- 2. Просьба отказаться от оскорблений, угроз и запугиваний.
- 3. Просьба отказаться от нецензурной лексики.
- 4. Просьба вести себя максимально корректно как по отношению к авторам, так и по отношению к другим читателям и их комментариям.
Надеемся на Ваше понимание и благоразумие. С уважением, администратор knigkindom.ru.
Оставить комментарий
-
Неважно26 июнь 15:53
Не понравился роман от слова совсем. Ни главные герои, ни их родители, в наибольшей степени - женькина мамашка- ..кашка. Если она...
Брак по залёту - Натаэль Зика
-
Гость Мария24 июнь 16:51
Очень интересный роман, насыщенный сюжет и сильные герои! Понравилось очень! Надеюсь, есть продолжение, концовка прямо кричит об...
Разведенка для дракона, или Личный лекарь генерала - Лана Ларсон
-
Nisa23 июнь 10:38
очень тяжело ориентироваться без оглавления. искала Фитцека Последний пассажир -152 страница. если кому надо. Аэрофобия-82стр. ...
Современный зарубежный детектив-14. Книги 1-22 - Себастьян Фитцек
