Данные решают. Как управлять данными, чтобы создавать ценность для бизнеса - Светлана Бова
Книгу Данные решают. Как управлять данными, чтобы создавать ценность для бизнеса - Светлана Бова читаем онлайн бесплатно полную версию! Чтобы начать читать не надо регистрации. Напомним, что читать онлайн вы можете не только на компьютере, но и на андроид (Android), iPhone и iPad. Приятного чтения!
Шрифт:
Интервал:
Закладка:
Но не все синтетические данные одинаково полезны. Если применять их бесконтрольно, происходит коллапс модели, она может выродиться и сильно потерять в качестве[85]. Поэтому ученые пытаются разработать правила использования синтетических данных на практике. И все с той же целью: идти вперед в гонке вооружений XXI века.
Еще есть вариант переобучить модель не на всех подряд данных в интернете, а только на достоверных. Ведь не все, что написано на форумах, правда. Конечно, тут нужно постараться. И необходимо время, а «гонку вооружений» пока никто не поставил на паузу. Но это действительно может быть решением, особенно для догоняющих ИИ-держав.
И здесь — вуаля — можно полагаться на методы управления данными, в которых мы с вами разбирались на протяжении всей книги.
Функция управления данными, которая еще недавно прозябала на задворках ИТ-департаментов, рядом с архивом и техподдержкой, вдруг выходит из тени и переезжает из душного подвала с серверами в светлые залы заседаний. Ведь именно здесь, на уровне управления данными, решается, смогут ли государственные и корпоративные массивы данных стать тем самым качественным фундаментом для ИИ-лидерства и принести России до 11 трлн руб. нового ВВП[86] к 2030 году или так и останутся грудой битов, которая только пылится и требует денег на свое хранение.
Не важно, строите ли вы основу основ для всей страны — фундаментальную LLM — или собираетесь применять ее на своих датасетах (наборах данных). Данные для ИИ — в любом случае ядро мира будущего, в котором ИИ играет значимую роль[87].
«Но какое отношение это имеет ко мне?» — спросите вы. Если вы не автор-разработчик больших языковых моделей, а, например, руководитель бизнеса, который смотрит на всю эту историю со стороны, у вас наверняка возникает закономерный вопрос: «А мне-то что со всем этим делать?»
Вопросов на самом деле несколько, и все они конкретные и болезненные.
Как не упустить выгоду от применения лучших LLM в мире? Тех, что создают OpenAI, Google, Anthropic, — они ведь реально умные, удобные, многофункциональные. Конкуренты уже встраивают их в свои продукты, экономят на поддержке, ускоряют разработку. Что же вам просто сидеть и смотреть?
И тут же второй вопрос: как сохранить данные о своем бизнесе? Ведь когда вы загружаете коммерческое предложение или договор в бесплатный ChatGPT, вы на самом деле отправляете эти данные на серверы в другую страну. Где они хранятся, как используются, не пойдут ли на дообучение модели, а потом не всплывут ли где-нибудь еще? Или вообще будут раскрыты по требованиям иностранного суда? Никто не даст вам стопроцентной гарантии.
Может, вообще забыть про иностранные модели и сразу ориентироваться на отечественные? Но здесь возникает третий вопрос: достаточно ли текущего уровня качества национальных LLM для наших потребностей? Они хорошо справляются с простыми задачами, но для сложных сценариев, глубокой аналитики, работы с узкими темами — не проигрывают ли западным аналогам? И если проигрывают, то насколько это критично?
Честный ответ: однозначного решения здесь нет. И любой, кто обещает вам простое «делайте так», скорее всего, лукавит или не до конца понимает проблему.
Поговорим об этом в материале про этику и риски. А пока осознаем, что делать со всей этой информацией бизнесу.
ЧТО ДЕЛАТЬ CDO
1. Будьте в курсе текущего положения страны и ее национальных LLM-моделей в гонке вооружений ИИ. Заведите радар технологий. Это поможет вам принимать бизнес-решения осознанно, а не плыть по течению. Даже если это будут решения о том, чтобы оставить все как есть.
2. Займитесь повышением качества данных при создании национальных LLM, если вы имеете к ним отношение. Или качеством данных и их описания в дата-каталогах, если вы собираетесь применять эти модели на практике в вашем бизнесе.
3. Надейтесь на лучшее. Ведь в теме ИИ многое зависит не от вас, а от темпов развития фундаментальной науки. Если, конечно, вы не имеете к ней непосредственного отношения.
Этика данных и риски: когда количественный рост упирается в стену
Итак, как мы сказали выше, до недавнего времени развитие больших языковых моделей шло по накатанной: больше данных, больше параметров, больше вычислительных мощностей — и модель умнеет прямо на глазах. Это работало как часы. Инженеры Google, OpenAI и других лабораторий скармливали алгоритмам терабайты текстов из интернета, книг, научных статей, и модель впитывала все, как губка. Казалось, этот процесс может продолжаться бесконечно.
Но сегодня мы упираемся в стену. Данные заканчиваются.
Не в том смысле, что в мире перестали писать тексты. А в том, что качественные, размеченные, пригодные для обучения массивы — особенно на редких языках или в узких доменах — стали дефицитом. Количество уже не переходит в качество автоматически. Моделям нужны не просто горы данных, а информация структурированная, проверенная, репрезентативная. И, что немаловажно, легально полученная.
Кай-фу Ли, один из самых авторитетных экспертов в области ИИ, описывает эволюцию ИИ через четыре волны, которые уже накрывают или скоро накроют мир.
Первая волна — ИИ интернета. Это алгоритмы рекомендаций в соцсетях, поисковики, таргетированная реклама. Здесь данные — наши клики, лайки, просмотры. Эта волна уже полностью вошла в нашу жизнь.
Вторая волна — ИИ бизнеса. Мы находимся в ней прямо сейчас. Это когда компании начинают использовать ИИ не только для рекомендаций, но и для управления запасами, оптимизации логистики, прогнозирования спроса, автоматизации рутинных процессов. Именно здесь данные становятся не просто «цифровым следом», а реальным активом бизнеса, влияющим на операционную эффективность.
Третья волна — ИИ восприятия. Машины начинают понимать не только текст, но и изображения, звуки, видео на уровне, близком к человеческому. Это уже происходит: системы распознавания лиц, голосовые помощники, диагностика по снимкам. Но расцвет третьей волны ИИ еще не наступил.
Четвертая волна — ИИ автономности. Роботы, беспилотные автомобили, дроны, которые принимают решения без участия человека. Здесь данные нужны уже не только для обучения, но и для работы в реальном времени, в реальном мире.
Каждая следующая волна требует все больше данных, причем все более качественных. И каждая следующая волна острее ставит вопрос: а откуда, собственно, эти данные брать?
ЛЕГАЛЬНОСТЬ КАК НОВОЕ УЗКОЕ ГОРЛЫШКО
OpenAI и другие компании-лидеры долгое время действовали по принципу «сначала захватить рынок, а с юристами разберемся потом». Они собирали данные отовсюду: из открытых интернет-архивов, книг, статей, форумов, часто не слишком задумываясь о том, кто автор этих текстов и на каких условиях они опубликованы[88].
И вот теперь разбирательства начались.
Японские
Прочитали книгу? Предлагаем вам поделится своим отзывом от прочитанного(прослушанного)! Ваш отзыв будет полезен читателям, которые еще только собираются познакомиться с произведением.
Уважаемые читатели, слушатели и просто посетители нашей библиотеки! Просим Вас придерживаться определенных правил при комментировании литературных произведений.
- 1. Просьба отказаться от дискриминационных высказываний. Мы защищаем право наших читателей свободно выражать свою точку зрения. Вместе с тем мы не терпим агрессии. На сайте запрещено оставлять комментарий, который содержит унизительные высказывания или призывы к насилию по отношению к отдельным лицам или группам людей на основании их расы, этнического происхождения, вероисповедания, недееспособности, пола, возраста, статуса ветерана, касты или сексуальной ориентации.
- 2. Просьба отказаться от оскорблений, угроз и запугиваний.
- 3. Просьба отказаться от нецензурной лексики.
- 4. Просьба вести себя максимально корректно как по отношению к авторам, так и по отношению к другим читателям и их комментариям.
Надеемся на Ваше понимание и благоразумие. С уважением, администратор knigkindom.ru.
Оставить комментарий
-
Неважно26 июнь 15:53
Не понравился роман от слова совсем. Ни главные герои, ни их родители, в наибольшей степени - женькина мамашка- ..кашка. Если она...
Брак по залёту - Натаэль Зика
-
Гость Мария24 июнь 16:51
Очень интересный роман, насыщенный сюжет и сильные герои! Понравилось очень! Надеюсь, есть продолжение, концовка прямо кричит об...
Разведенка для дракона, или Личный лекарь генерала - Лана Ларсон
-
Nisa23 июнь 10:38
очень тяжело ориентироваться без оглавления. искала Фитцека Последний пассажир -152 страница. если кому надо. Аэрофобия-82стр. ...
Современный зарубежный детектив-14. Книги 1-22 - Себастьян Фитцек
