KnigkinDom.org» » »📕 Эти странные новые разумы: Как ИИ научился говорить и что это значит - Кристофер Саммерфилд

Эти странные новые разумы: Как ИИ научился говорить и что это значит - Кристофер Саммерфилд

Книгу Эти странные новые разумы: Как ИИ научился говорить и что это значит - Кристофер Саммерфилд читаем онлайн бесплатно полную версию! Чтобы начать читать не надо регистрации. Напомним, что читать онлайн вы можете не только на компьютере, но и на андроид (Android), iPhone и iPad. Приятного чтения!

1 ... 23 24 25 26 27 28 29 30 31 ... 111
Перейти на страницу:

Шрифт:

-
+

Интервал:

-
+

Закладка:

Сделать
NLP и до сих пор используется в некоторых приложениях для предиктивного ввода текста. Так что если автозаполнение в вашей электронной почте вдруг предложит совершить инсайдерскую сделку, возможно, причина именно в этом.) Попутно Елинек изобрел величину, которая и сегодня остается золотым стандартом для измерения предсказательной способности больших языковых моделей (LLM) — она носит прекрасное название «перплексия» (perplexity). Перплексия высказывания (в рамках данной модели) определяется как обратная величина его вероятности, нормализованная по количеству слов, так что модели с более высокой перплексией буквально пребывают в большем замешательстве по поводу того, каким должно быть следующее слово. Например, если модель L4 имеет перплексию, равную четырем, это означает, что она растеряна так же, как если бы она всегда просто угадывала слово среди всех возможных альтернатив (а значит, это ужасная модель).

Моделирование статистики естественного языка требует больших данных. Крупные оцифрованные языковые корпуса начали появляться благодаря взрывному росту интернета в 1990-х годах. К началу века некоторые наборы данных насчитывали десятки миллионов слов. В 2006 году Google Research выпустила гигантский корпус, разросшийся до более чем триллиона слов, вместе со статистикой для последовательностей слов длиной до пяти единиц. Существует даже веб-страница, где можно посмотреть историческую динамику вероятностей любой n-граммы в корпусе оцифрованных книг Google Web с 1800 года до наших дней.[*2] Мы видим, что вероятность словосочетания «natural language processing» (обработка естественного языка) держится на нулевом уровне вплоть до 1960-х годов, затем медленно растет, совершает колоссальный скачок с 2013 года и достигает внушительного значения в 0,00003% к 2019 году — это означает, что данная фраза составляет три из каждых десяти миллионов словосочетаний-троек в Google Books (бьюсь об заклад, с тех пор этот показатель только вырос). Напротив, архаичное порицание «fie upon you» («тьфу на тебя») достигло своего пика в 1806 году и сегодня практически полностью вышло из повседневного употребления, разве что за исключением преподавательских гостиных некоторых оксфордских колледжей.

Мы уже знаем, как во второй половине двадцатого века искусственный интеллект формировался под влиянием яростного противостояния между рационалистическим и эмпирическим подходами к вычислениям. Особенно ожесточенными эти битвы были в сфере NLP. Магнетическое влияние Ноама Хомского заставило целое поколение лингвистов отвернуться от статистических подходов к моделированию языка, поскольку он считал, что они игнорируют роль синтаксиса в формировании грамматически правильных предложений. В своей речи по случаю вручения награды за выдающиеся научные достижения Елинек цитирует короткое письмо с отказом, полученное им на одну из первых важных работ по машинному переводу. Анонимный рецензент писал: «Обоснованность статистического (информационно-теоретического) подхода к [машинному переводу] действительно была признана еще в 1949 году. И была единодушно признана ошибочной уже к 1950 году. Грубая сила компьютеров — это не наука».

Сегодня Ноам Хомский, которому уже глубоко за девяносто, остается самым цитируемым из ныне живущих ученых в мире и все так же непримиримо ниспровергает авторитеты. Ни на минуту не думайте, что появление GPT-4 в 2023 году заставило его смягчить отношение к статистическому подходу в моделировании языка. В интервью для одного из недавних подкастов приводятся его слова: «Большие языковые модели хороши, если вы хотите потратить всю электроэнергию Калифорнии на то, чтобы улучшить перевод [...] Мне тоже нравятся бульдозеры, убирать снег с их помощью гораздо проще, чем вручную, но это не вклад в науку».

Фред Елинек умер в 2010 году. Он никогда не был догматичным сторонником статистического подхода и на самом деле признавался, что его переход в лингвистику был вдохновлен посещением лекций Ноама Хомского в Гарварде (изначально он пошел туда просто за компанию с женой, которой нечем было заняться после недавнего побега из Праги). Тем не менее, исследователи в области NLP до сих пор с теплотой вспоминают его (скорее всего, апокрифическую) цитату, которая прекрасно отражает сегодняшний самоуверенный подход глубокого обучения к моделированию языка: «Каждый раз, когда я увольняю лингвиста, качество работы нашей системы распознавания речи повышается».

Пропустить примечания

*1 В соавторстве с Дэвидом Уоллесом (Mosteller and Wallace, 1963).

*2 См. https://ai.googleblog.com/2006/08/all-our-n-gram-are-belong-to-you.html и Michel et al., 2011.

11. Карты смыслов.

В экранизации классической повести Роальда Даля «Вилли Вонка и шоколадная фабрика» эксцентричный затворник Вилли Вонка несёт много околесицы. «Если бы Господь хотел, чтобы мы ходили пешком, он никогда не изобрёл бы роликовые коньки», — уверенно заявляет он, пока дети разбегаются во всех направлениях, чтобы исследовать шоколадную фабрику. Представляя посетителям свой вонкамобиль — волшебный автомобиль, работающий на газировке, — он неточно цитирует Томаса Эдисона: «Изобретение, мои дорогие друзья, — это на 93% пот, на 6% электричество, на 4% испарение и на 2% ирисковый сироп».

Фразы Вонки восхитительно нелепы, и, подобно фразе Ноама Хомского «бесцветные зелёные идеи яростно спят», абсолютно грамматически верны. Но Господь на самом деле не изобретал роликовые коньки (эта честь принадлежит бельгийцу XVIII века по имени Жан-Жозеф Мерлен, который испытывал своё творение, играя на скрипке на костюмированном балу, и с треском врезался в гигантское зеркало). Да и изобретательство не имеет практически ничего общего с ирисковым сиропом. В отличие от Вонки, большинство людей в разговоре стремятся сделать свои предложения уместными и связными. Иначе беседа скакала бы отрывистым стаккато с темы на тему, мешая вести осмысленный диалог (чего Вонка уж точно не преследует).

К концу 1990-х годов n-граммный подход доминировал в исследованиях в области обработки естественного языка (NLP). N-граммные модели довольно неплохо справлялись с предсказанием следующего слова, но когда их использовали для генерации целых предложений, они, подобно Вонке, выдавали преимущественно квазисвязную белиберду. Вот несколько примеров предложений, сгенерированных триграммной моделью, обученной на наборе данных телефонных разговоров, известном как корпус Switchboard:

Я вырасти с этим пятидневным периодом ожидания является одним из верхнего полуострова.

И я чувствовал себя в полной безопасности с их десять клавиша или типа того?

Мы, мы, э-э, барбекю и расскажи мне как сказать в Германии.

Подобно перевёрнутым с ног на голову высказываниям Вонки, эти предложения поначалу могут показаться смутно правдоподобными, но они не выдерживают более пристального рассмотрения. Ноам Хомский обязательно пожаловался бы, что ни одно из трёх предложений не является строго грамматически верным. Во втором предложении слово «десять» указывает на то, что клавиш больше одной, поэтому правильным должно быть согласование «десять клавиш». Более того, они довольно бессмысленны. Нет никакой очевидной семантической связи между «барбекю» и «Германией» или между «пятидневным периодом ожидания» и «верхним полуостровом». Причина в том, что n-граммные модели учатся

1 ... 23 24 25 26 27 28 29 30 31 ... 111
Перейти на страницу:
Отзывы - 0

Прочитали книгу? Предлагаем вам поделится своим отзывом от прочитанного(прослушанного)! Ваш отзыв будет полезен читателям, которые еще только собираются познакомиться с произведением.


Уважаемые читатели, слушатели и просто посетители нашей библиотеки! Просим Вас придерживаться определенных правил при комментировании литературных произведений.

  • 1. Просьба отказаться от дискриминационных высказываний. Мы защищаем право наших читателей свободно выражать свою точку зрения. Вместе с тем мы не терпим агрессии. На сайте запрещено оставлять комментарий, который содержит унизительные высказывания или призывы к насилию по отношению к отдельным лицам или группам людей на основании их расы, этнического происхождения, вероисповедания, недееспособности, пола, возраста, статуса ветерана, касты или сексуальной ориентации.
  • 2. Просьба отказаться от оскорблений, угроз и запугиваний.
  • 3. Просьба отказаться от нецензурной лексики.
  • 4. Просьба вести себя максимально корректно как по отношению к авторам, так и по отношению к другим читателям и их комментариям.

Надеемся на Ваше понимание и благоразумие. С уважением, администратор knigkindom.ru.


Партнер

Новые отзывы

  1. Гость ghonius858 Гость ghonius85805 июнь 00:47 Помощь в оформлении водительских прав любой категории. Работаем быстро, конфиденциально и с индивидуальным подходом к каждому.... Игры современников. Записки пинчраннера - Кэндзабуро Оэ
  2. Гость ghonius858 Гость ghonius85804 июнь 17:48 Помощь в оформлении водительских прав любой категории. Работаем быстро, конфиденциально и с индивидуальным подходом к каждому.... Бутаров Алекс – Большая Рыба
  3. Гость Любовь Гость Любовь03 июнь 16:19 Книга мне очень понравилась.Интересная,много юмора.Читайте с удовольствием.... Отдам дракона в хорошие руки - Марина Ефиминюк
Все комметарии
Новое в блоге