KnigkinDom.org» » »📕 Эти странные новые разумы: Как ИИ научился говорить и что это значит - Кристофер Саммерфилд

Эти странные новые разумы: Как ИИ научился говорить и что это значит - Кристофер Саммерфилд

Книгу Эти странные новые разумы: Как ИИ научился говорить и что это значит - Кристофер Саммерфилд читаем онлайн бесплатно полную версию! Чтобы начать читать не надо регистрации. Напомним, что читать онлайн вы можете не только на компьютере, но и на андроид (Android), iPhone и iPad. Приятного чтения!

1 ... 22 23 24 25 26 27 28 29 30 ... 111
Перейти на страницу:

Шрифт:

-
+

Интервал:

-
+

Закладка:

Сделать
нас от Элизы к GPT-4.

В предложении, приведенном выше из «Федералиста», пропущено последнее слово. Как вы думаете, какое это должно быть слово? Даже если вы не знаток истории конституции США, вы, вероятно, сможете сделать неплохое предположение. По крайней мере, следуя грамматике составляющих Ноама Хомского, вы знаете, что оно должно быть допустимой частью именной группы «bodies of X» (тела/коллегии X), и, учитывая следующую за ним точку, это может быть только существительное. Но «bodies» чего? Многое в мире обладает телом (body) или описывается через это слово. Мы можем говорить о водоемах (bodies of water), телах жертв убийств (bodies of murder victims) или сводах знаний (bodies of knowledge). Или, раз уж на то пошло, о телах тяжелоатлетов (bodies of weightlifters) или телах насекомых (bodies of insects). Как же сделать выбор?

В 1957 году, когда Ноам Хомский стремительно ворвался в науку с публикацией «Синтаксических структур», выдающийся британский лингвист Джон Фёрс был болен и близок к выходу на пенсию. В статье, подводившей итог десятилетиям работы в его области, он выступил в защиту подхода, в корне отличавшегося от подхода Ноама Хомского. Фёрса меньше интересовали ментальные процессы — рациональные или какие-либо еще, — которые могли бы предшествовать порождению грамматически правильных предложений. Вместо этого он утверждал, что значение слова можно понять только в контексте, заданном другими, окружающими его словами. Он подытожил это в часто цитируемом изречении: «слово познается по его окружению». Вот (слегка грубоватый) аргумент, которым почтенный старый профессор решил проиллюстрировать свою мысль:

«Отсюда следует, что текст при таком устоявшемся употреблении может содержать такие предложения, как „Don’t be such an ass!“ (Не будь таким ослом!), „You silly ass!“ (Глупый осел!), „What an ass he is!“ (Какой же он осел!). В этих примерах слово „ass“ находится в привычном и постоянном окружении, обычно сочетаясь с „you silly ___“, „he is a silly __“, „don’t be such an ___“. Слово познается по его окружению!»

Первые шаги на пути, который в конечном итоге привел к современным большим языковым моделям, были вдохновлены философией, которую здесь формулирует Фёрс. Помимо того факта, что некоторые слова (например, the или to) в целом более вероятны, чем другие (такие как quagga [квагга] или extemporizing [импровизация]), Фёрс указывает на то, что слово можно предсказать по всем предшествующим ему в тексте словам. Вероятно, вы интуитивно использовали этот подход, когда оценивали эссе № 81. Оно написано сухим ораторским слогом, а упоминания законодательных и судебных органов указывают на то, что это юридический или политический документ, что делает любое обсуждение «тел насекомых» или «водных пространств» маловероятным. Разбирая предложение с конца, вы видите, что речь идет о «вверении судебной власти» этим органам, что, вероятно, исключает жертв убийств и, возможно, тяжелоатлетов. Возможно, «собраниям людей»? Но авторы XVIII века, как правило, использовали слово «men» (мужчины), даже когда имели в виду и мужчин, и женщин. Так что, с учетом всего вышесказанного, вы, вероятно, можете сделать вполне обоснованное предположение о пропущенном слове.

Чтобы понять, как мы можем использовать окружение слов для прогнозирования, давайте снова обратимся к очень простому языку. Наш язык, который мы назовем L4, состоит всего из четырех слов: florbix, quibbly, zandoodle и blibberish. В нашем распоряжении есть массив текстов, или корпус, на языке L4, состоящий из следующих предложений:

Florbix quibbly zandoodle blibberish quibbly zandoodle blibberish quibbly. Quibbly florbix zandoodle blibberish blibberish florbix zandoodle blibberish quibbly zandoodle florbix. Florbix quibbly florbix quibbly zandoodle blibberish.

Очевидно, это довольно странный текст, поскольку L4 имеет очень скудный словарный запас, из-за чего предложения кажутся странно однообразными. Тем не менее, представьте, что теперь у нас есть промпт. Промпт — это последовательность слов, которую вы вводите в языковую модель и которую она пытается дополнить (например, каждый раз, когда вы задаете вопрос ChatGPT, вы даете ему промпт). Вот наш промпт:

Quibbly florbix florbix zandoodle ________.

Вероятностный подход подсказывает нам, как рассчитать вероятность каждого возможного продолжения промпта с учетом всех предшествующих слов. Это может оказаться довольно сложной задачей. Такой точной фразы в нашем корпусе нет, поэтому мы не можем просто подсчитать долю случаев, когда за ней следовало каждое из четырех слов. Поскольку почти все предложения в естественном языке отличаются друг от друга, это, разумеется, справедливо и для моделирования NLP в целом (по крайней мере, для большинства промптов, состоящих более чем из нескольких слов). Точная фраза «Harry and Hermione raced out of Hogwarts, pursued by…» (Гарри и Гермиона выбежали из Хогвартса, преследуемые...) не встречается ни разу среди 1 084 169 слов в полном собрании романов о Гарри Поттере, но если вы знакомы с серией книг Дж. К. Роулинг, то без труда придумаете правдоподобные варианты завершения (GPT-4 предлагает вариант: «pursued by a swarm of incensed Cornish pixies, let loose from a forgotten classroom» [преследуемые роем разгневанных корнуоллских пикси, выпущенных из забытого кабинета]).

Вместо этого исследователи в области NLP разработали метод, который заключается в разбиении текста на небольшие фрагменты всего из нескольких слов — так называемые n-граммы — и вычислении вероятности этих фрагментов. Так, например, 2-граммная (или биграммная) модель нашего крошечного корпуса L4 показала бы, что вероятность слова blibberish при условии, что предшествующим словом является zandoodle — p(blibberish⏐zandoodle) — равна 5/6 = 0,83, поскольку из шести раз, когда zandoodle встречается в корпусе, в пяти случаях за ним следует blibberish (вероятность более длинного продолжения будет равна произведению всех его биграммных вероятностей). Первопроходцем этого подхода стал Фред Елинек, чешский эмигрант в США, чьи глубокие знания в области теории информации сделали его идеальным кандидатом для изучения вероятностей речевых высказываний. Увы, в 1960-х годах статистическое моделирование языка было совершенно не в моде из-за вердикта Ноама Хомского в его труде «Синтаксических структурах» о том, что «вероятностные модели не дают никакого особого понимания некоторых фундаментальных проблем синтаксической структуры». Выдающийся лингвист Чарльз Хоккетт убедил Елинека устроиться на работу в Корнеллский университет, но к тому времени, когда Елинек получил ключи от своего нового кабинета, Хоккетт объявил, что его больше не интересуют информационно-теоретические модели языка, и он решил сосредоточиться на сочинении опер.

Возможно, по вполне понятным причинам, вскоре Елинек ушел из академической среды в IBM, где начал моделировать язык с помощью триграмм (троек слов), используя корпус, составленный из внутренних сообщений компании. (К слову, гораздо позже внутренняя электронная переписка топ-менеджеров опозоренной компании Enron, разоблачившая их мошеннические манипуляции на энергетических рынках США, станет известным корпусом

1 ... 22 23 24 25 26 27 28 29 30 ... 111
Перейти на страницу:
Отзывы - 0

Прочитали книгу? Предлагаем вам поделится своим отзывом от прочитанного(прослушанного)! Ваш отзыв будет полезен читателям, которые еще только собираются познакомиться с произведением.


Уважаемые читатели, слушатели и просто посетители нашей библиотеки! Просим Вас придерживаться определенных правил при комментировании литературных произведений.

  • 1. Просьба отказаться от дискриминационных высказываний. Мы защищаем право наших читателей свободно выражать свою точку зрения. Вместе с тем мы не терпим агрессии. На сайте запрещено оставлять комментарий, который содержит унизительные высказывания или призывы к насилию по отношению к отдельным лицам или группам людей на основании их расы, этнического происхождения, вероисповедания, недееспособности, пола, возраста, статуса ветерана, касты или сексуальной ориентации.
  • 2. Просьба отказаться от оскорблений, угроз и запугиваний.
  • 3. Просьба отказаться от нецензурной лексики.
  • 4. Просьба вести себя максимально корректно как по отношению к авторам, так и по отношению к другим читателям и их комментариям.

Надеемся на Ваше понимание и благоразумие. С уважением, администратор knigkindom.ru.


Партнер

Новые отзывы

  1. Гость ghonius858 Гость ghonius85805 июнь 00:47 Помощь в оформлении водительских прав любой категории. Работаем быстро, конфиденциально и с индивидуальным подходом к каждому.... Игры современников. Записки пинчраннера - Кэндзабуро Оэ
  2. Гость ghonius858 Гость ghonius85804 июнь 17:48 Помощь в оформлении водительских прав любой категории. Работаем быстро, конфиденциально и с индивидуальным подходом к каждому.... Бутаров Алекс – Большая Рыба
  3. Гость Любовь Гость Любовь03 июнь 16:19 Книга мне очень понравилась.Интересная,много юмора.Читайте с удовольствием.... Отдам дракона в хорошие руки - Марина Ефиминюк
Все комметарии
Новое в блоге