KnigkinDom.org» » »📕 Токен за токеном - SeNS Boston

Токен за токеном - SeNS Boston

Книгу Токен за токеном - SeNS Boston читаем онлайн бесплатно полную версию! Чтобы начать читать не надо регистрации. Напомним, что читать онлайн вы можете не только на компьютере, но и на андроид (Android), iPhone и iPad. Приятного чтения!

1 ... 8 9 10 11 12 13 14 15 16 ... 33
Перейти на страницу:

Шрифт:

-
+

Интервал:

-
+

Закладка:

Сделать
университете технологий по рекуррентным нейронным сетям, применённым к языковому моделированию, и в 2012 году переехал в США. К концу 2012 года вышла его первая опубликованная в Google работа, а к 2013 году он опубликовал серию статей, в которых сделал нечто, на первый взгляд скромное, но имевшее далеко идущие последствия.

Миколов развил идею Бенгио 2003 года про векторные представления слов и упростил её до неузнаваемости. Бенгио предлагал получать векторные представления как побочный продукт обучения полной нейросетевой языковой модели; это было дорого. Миколов показал, что вектора можно получить намного дешевле и быстрее, если использовать упрощённую модель: предсказывать соседние слова в окне из нескольких слов вокруг текущего, или, наоборот, по нескольким окружающим словам предсказывать центральное. Архитектура, которую он назвал word2vec, обучалась на гигабайтах текста за несколько часов на одной машине и выдавала вектора слов поразительного качества.

Что значит «поразительного качества»? Миколов и его коллеги показали публике несколько небольших арифметических трюков, которые мгновенно облетели весь мир. Если взять вектор слова «король», вычесть из него вектор слова «мужчина», прибавить вектор слова «женщина» и поискать в словаре ближайший к получившемуся, в большинстве случаев находился вектор слова «королева». Если из вектора «Париж» вычесть «Франция» и прибавить «Италия», получался «Рим». Из «иду» минус «идти» плюс «бегать» получалось «бегу». Эти соответствия модель никто не закладывал; она выучила их сама, по статистике совстречаемости слов в большом текстовом массиве.

Для людей, занимавшихся обработкой языка, это было поразительно. Получалось, что в самом подсчёте сочетаемостей слов скрыта геометрия, в которой слова, имеющие общие свойства, оказываются в одной плоскости. Пол: мужской-женский, единственное-множественное число, прошедшее-настоящее время, страна-столица; всё это автоматически выходило в виде определённых векторных направлений. Никаких лингвистических правил никто в модель не вкладывал; она сама их нашла, просто читая много текста.

word2vec за несколько месяцев стал самым популярным инструментом обработки естественного языка. Стартапы, исследовательские группы, поисковые компании начали повсеместно использовать его как первый шаг любой системы. Если до 2013 года слово в компьютере было индексом или мешком букв, то после 2013 года оно стало точкой в трёхсотмерном пространстве, и эта точка очень многое говорила о смысле.

Миколов, между тем, продолжал думать о том, что можно сделать с языком ещё. Векторы слов были началом, но они описывали изолированные единицы. Хотелось обрабатывать целые предложения, потом — целые тексты. Хотелось, чтобы машина могла читать одно предложение на одном языке и выдавать его перевод на другом. Хотелось перейти от изолированных слов к последовательностям.

Здесь начались разные истории, в зависимости от того, кто рассказывает. По версии Миколова, он несколько раз обсуждал такую идею с Ильёй и с другим коллегой по Google Brain по имени Куок Ле. По его собственным позднейшим словам, он предлагал: давайте обучим нейроязыковую модель на парах предложений из двух языков, а потом, увидев одно предложение, она будет генерировать его перевод. По версии Ильи и Куока, история выглядела иначе и Миколов в формировании идеи участвовал намного скромнее. Кто из них прав, мы точно не узнаем; научные приоритеты редко удаётся восстановить однозначно, особенно когда работа делалась в коридорных разговорах за обедом. Что известно точно: к лету 2014 года команда из трёх человек — Илья Суцкевер, Ориол Виньялс и Куок Ле — написала статью, которая называлась «Sequence to Sequence Learning with Neural Networks».

seq2seq

Идея, изложенная в этой статье, была элегантна и проста. Возьмём две нейронные сети. Назовём первую кодировщиком, вторую декодировщиком. Обе будут типа LSTM, особой разновидности рекуррентной нейронной сети, придуманной в 1997 году немецкими исследователями Юргеном Шмидхубером и Сеппом Хохрайтером.

Зепп Хохрайтер, 2025

Кодировщику будем подавать на вход слова исходного предложения, по одному. После каждого слова внутреннее состояние кодировщика обновляется: оно теперь содержит «суммарное значение» прочитанного. Когда исходное предложение закончилось, в скрытом состоянии кодировщика лежит, в каком-то смысле, его сжатое представление. Назовём этот вектор контекстом.

Дальше контекст подаётся декодировщику. Декодировщик по очереди генерирует слова целевого предложения, на другом языке. Каждое следующее слово зависит от контекста и от уже сгенерированной части перевода. Когда декодировщик решает, что предложение закончено, он выдаёт специальный символ конца.

Обе сети обучаются совместно на огромном двуязычном массиве данных: парах фраз вроде «I am tired» и «Я устал», «The dog barks» и «Собака лает», и так далее. В каждой обучающей паре сеть пробует предсказать русский перевод по английскому исходнику, считается ошибка, и веса обеих сетей корректируются по уже знакомому нам алгоритму обратного распространения.

Никаких лингвистических правил, никаких таблиц соответствия слов, никаких морфологических анализаторов. Просто две сети, читающие одна другой пары предложений из двух языков и постепенно осваивающие перевод между ними.

Когда Илья с коллегами обучили первую такую систему на стандартном наборе данных WMT — фактически это были записи заседаний Европейского парламента в нескольких языковых версиях, около двенадцати миллионов пар предложений на английском и французском, — она сразу показала результаты, сопоставимые с гораздо более старыми и сложными статистическими системами перевода. Цифры были скромные, точнее, средние, но не разгромные: лучшие на тот момент классические статистические системы перевода по-прежнему держали небольшое преимущество. Однако никто из тех, кто читал статью, не сомневался: это начало.

Статью представили на конференции NIPS 2014 в Монреале. После доклада Илью окружили коллеги. Многие сразу поняли значение происходящего. Машинный перевод после двадцати лет статистических методов выходил на новую территорию.

Богданау, или северная ветка

Дзмитрий Богданау

Пока в Маунтин-Вью обкатывали seq2seq, в Монреале происходило нечто параллельное. В группе у Бенгио — той самой группе, где в 2003 году была опубликована первая нейросетевая языковая модель — учился аспирант по имени Дмитрий Богданау. Дмитрий приехал из Беларуси, поступил к Бенгио и в 2014 году занялся той же задачей машинного перевода.

Богданау, читая параллельно статью Ильи и работы по seq2seq, заметил одну серьёзную слабость. Контекст, в который кодировщик сжимает всё исходное предложение, имеет фиксированный размер: скажем, тысячу чисел. Если исходное предложение короткое, проблем нет. Но если оно длинное, на тридцать или сорок слов, всё это богатство приходится упаковывать в те же самые тысячу чисел. Информация теряется. Качество перевода длинных предложений у seq2seq заметно деградировало по сравнению с короткими.

Дмитрий придумал, как с этим справиться. Что если декодировщик, генерируя каждое следующее слово перевода, мог бы заглядывать обратно в исходное предложение и обращать внимание на нужные его части? Скажем, переводя глагол, посмотреть на

1 ... 8 9 10 11 12 13 14 15 16 ... 33
Перейти на страницу:
Отзывы - 0

Прочитали книгу? Предлагаем вам поделится своим отзывом от прочитанного(прослушанного)! Ваш отзыв будет полезен читателям, которые еще только собираются познакомиться с произведением.


Уважаемые читатели, слушатели и просто посетители нашей библиотеки! Просим Вас придерживаться определенных правил при комментировании литературных произведений.

  • 1. Просьба отказаться от дискриминационных высказываний. Мы защищаем право наших читателей свободно выражать свою точку зрения. Вместе с тем мы не терпим агрессии. На сайте запрещено оставлять комментарий, который содержит унизительные высказывания или призывы к насилию по отношению к отдельным лицам или группам людей на основании их расы, этнического происхождения, вероисповедания, недееспособности, пола, возраста, статуса ветерана, касты или сексуальной ориентации.
  • 2. Просьба отказаться от оскорблений, угроз и запугиваний.
  • 3. Просьба отказаться от нецензурной лексики.
  • 4. Просьба вести себя максимально корректно как по отношению к авторам, так и по отношению к другим читателям и их комментариям.

Надеемся на Ваше понимание и благоразумие. С уважением, администратор knigkindom.ru.


Партнер

Новые отзывы

  1. Синь Синь14 май 09:56 Классная серия книг. Столько юмора и романтики! Браво! Фильмы надо снимать ... Роковые яйца майора Никитича - Ольга Липницкая
  2. Павел Павел11 май 20:37 Спасибо за компетентность и талант!!!!... Байки из кочегарки (записки скромного терминатора) - Владимир Альбертович Чекмарев
  3. Антон Антон10 май 15:46 Досадно, что книга, которая может спасти в реальном атомном конфликте тысячи людей, отсутствует в открытом доступе... Колокол Нагасаки - Такаси Нагаи
Все комметарии
Новое в блоге