Токен за токеном - SeNS Boston
Книгу Токен за токеном - SeNS Boston читаем онлайн бесплатно полную версию! Чтобы начать читать не надо регистрации. Напомним, что читать онлайн вы можете не только на компьютере, но и на андроид (Android), iPhone и iPad. Приятного чтения!
Шрифт:
Интервал:
Закладка:
Вот таким человеком был тот господин, что сидел в январе 1913 года над романом Пушкина и считал буквы.
На столе у него лежал том, открытый на первой странице. Слева, под бронзовой лампой, — тетрадь в линейку, расчерченная в две колонки. Одна была озаглавлена «гласные», другая — «согласные». В правой руке Марков держал перо; левой он медленно вёл по строчке, и каждый раз, дойдя до буквы, делал крошечную засечку — палочку — в соответствующей колонке.
Мой дядя самых честных правил…
М — согласная. О — гласная. Й — согласная. Пробел не считается. Д — согласная. Я — гласная. Д — согласная. Я — гласная.
Так — две тысячи букв. Потом ещё две. Потом ещё. Он собирался дойти до двадцати тысяч; ему казалось, что меньшего объёма не хватит. Иногда, отрываясь, он растирал переносицу и говорил вслух, ни к кому не обращаясь, что-нибудь короткое и решительное. Потом снова склонялся над страницей.
Если бы кто-нибудь — например, ассистент или аспирант, привыкшие к чудачествам академика, — заглянул в этот момент в его кабинет и спросил, зачем он, ради всех святых, занимается такой мучительной, такой бессмысленной работой, Марков, скорее всего, ответил бы коротко и ясно. Он не был человеком, любящим объяснять. Он сказал бы что-нибудь вроде: «Это для Некрасова. Чтобы у господина Некрасова больше не было повода писать глупости».
За Некрасовым стоял многолетний и очень русский спор. Павел Алексеевич Некрасов был ректором Московского университета, математиком и одновременно — глубоко верующим православным человеком, для которого математика являлась чем-то вроде второй теологии. В одной из своих работ он развил такую цепочку. Закон больших чисел, утверждал он, работает только для независимых событий. Подбрасывания монеты независимы — поэтому статистика для них верна. Но человеческие поступки зависимы: вчерашнее настроение определяет сегодняшнее, поступок отца отзывается в сыне, история накладывает свою колею. Значит, к человеческим поступкам закон больших чисел неприменим. Значит, человеческая воля свободна. Значит, существует Бог.
Когда Марков прочёл эту цепочку, он, должно быть, испытал чувство, известное каждому учёному, столкнувшемуся с особенно изящной формой невежества: смесь скуки и негодования. Скука была от того, что в рассуждении Некрасова не было ни одной строки, которую следовало бы опровергать всерьёз; негодование — от того, что вся эта цепочка двигалась под почтенной фамилией ректора крупного университета и, значит, читалась тысячами студентов.
Марков решил опровергнуть Некрасова не словами, а вычислением. Он покажет, что закон больших чисел работает и для зависимых событий тоже — если только эта зависимость устроена определённым образом. И в качестве материала возьмёт что-нибудь подчёркнуто человеческое, заведомо неслучайное, заведомо порождённое волей. Какой-нибудь литературный текст. Лучше всего — общеизвестный.
«Евгений Онегин» подошёл идеально. Его знала наизусть половина гимназистов империи. Никто никогда не упрекнул бы Пушкина в том, что он расставлял буквы случайным образом. Если уж в этом тексте — в самом возвышенном, в самом авторском, в самом сознательном из всех русских текстов — обнаружится статистическая закономерность, то спор с Некрасовым можно будет считать законченным.
Марков взял первые пять глав романа. Двадцать тысяч букв — по тогдашним меркам гигантский объём текста, по нынешним — размером с одну газетную статью. Он разделил все буквы на два класса: гласные и согласные. И посчитал не отдельные частоты, а нечто более тонкое: условные вероятности. С какой частотой за гласной идёт согласная? С какой — снова гласная? А за согласной?
Получилось вот что. Если очередная буква в пушкинском тексте — гласная, то в следующей позиции с вероятностью около 0,87 окажется согласная и только с вероятностью 0,13 — снова гласная. Если же очередная буква согласная, то в следующей позиции с вероятностью около 0,66 окажется гласная и с вероятностью 0,34 — снова согласная. Эти числа были подсчитаны вручную, ночами, при газовой и керосиновой лампах, в тетради в линейку, безо всяких машин.
То, что обнаружил Марков, выглядит сегодня настолько естественным, что трудно почувствовать, насколько оно тогда было нетривиально. Он показал две вещи. Первая: язык — даже самый авторский, самый волевой, самый «свободный» язык — статистически закономерен. Соседние буквы зависят друг от друга, и эту зависимость можно измерить. Вторая, более глубокая: закон больших чисел продолжает работать и в условиях такой зависимости. Если правильно сформулировать математику цепи событий — каждое из которых зависит от предыдущего, — то для долгих цепей все равно справедливы предсказуемые средние. Свобода воли в смысле Некрасова никаким способом не следует из зависимости испытаний.
В этих двух выводах был заключён весь будущий двадцатый век NLP — обработки естественного языка. И весь двадцать первый. Но Марков, разумеется, об этом не знал.
23 января 1913 года, на заседании Физико-математического отделения Императорской академии наук, академик Марков прочёл доклад с длинным и обстоятельным названием: «Пример статистического исследования над текстом „Евгения Онегина“, иллюстрирующий связь испытаний в цепь».
В зале сидели коллеги. Они были вежливы. Они задали несколько корректных вопросов. Никто не сказал, что Марков сделал нечто эпохальное; никто, кажется, не догадывался, что это вообще возможно — сделать в математике что-то эпохальное при помощи Пушкина. Доклад приняли, поблагодарили, перешли к следующему пункту повестки. Стенограмма заседания была опубликована, и на этом, для большинства присутствовавших, история закончилась.
Через десять лет на Западе эту работу обнаружили. В двадцатые годы англо-американские математики начали говорить о «цепях Маркова» — Markov chains. К пятидесятым годам цепи Маркова прочно вошли в учебники теории вероятностей. К семидесятым — в инженерные дисциплины: их использовали в системах массового обслуживания, в физике, в экономике. К концу восьмидесятых — в распознавании речи: скрытые марковские модели (Hidden Markov Models) тридцать лет были лучшим, что человечество умело делать в области превращения звуков в слова. К концу девяностых из этих же моделей выросли первые статистические системы автоматического перевода. В начале двухтысячных n-граммные модели — прямые наследники марковской идеи — научились предсказывать следующее слово в SMS-сообщении на кнопочном телефоне, и десятки миллионов подростков по всему миру полюбили или возненавидели технологию под названием T9.
Цепь Маркова: переходы между состояниями
А ещё через двадцать лет, в больших дата-центрах в Орегоне и Айове, в Калифорнии и Айдахо, нейронные сети с
Прочитали книгу? Предлагаем вам поделится своим отзывом от прочитанного(прослушанного)! Ваш отзыв будет полезен читателям, которые еще только собираются познакомиться с произведением.
Уважаемые читатели, слушатели и просто посетители нашей библиотеки! Просим Вас придерживаться определенных правил при комментировании литературных произведений.
- 1. Просьба отказаться от дискриминационных высказываний. Мы защищаем право наших читателей свободно выражать свою точку зрения. Вместе с тем мы не терпим агрессии. На сайте запрещено оставлять комментарий, который содержит унизительные высказывания или призывы к насилию по отношению к отдельным лицам или группам людей на основании их расы, этнического происхождения, вероисповедания, недееспособности, пола, возраста, статуса ветерана, касты или сексуальной ориентации.
- 2. Просьба отказаться от оскорблений, угроз и запугиваний.
- 3. Просьба отказаться от нецензурной лексики.
- 4. Просьба вести себя максимально корректно как по отношению к авторам, так и по отношению к другим читателям и их комментариям.
Надеемся на Ваше понимание и благоразумие. С уважением, администратор knigkindom.ru.
Оставить комментарий
-
Синь14 май 09:56
Классная серия книг. Столько юмора и романтики! Браво! Фильмы надо снимать ...
Роковые яйца майора Никитича - Ольга Липницкая
-
Павел11 май 20:37
Спасибо за компетентность и талант!!!!...
Байки из кочегарки (записки скромного терминатора) - Владимир Альбертович Чекмарев
-
Антон10 май 15:46
Досадно, что книга, которая может спасти в реальном атомном конфликте тысячи людей, отсутствует в открытом доступе...
Колокол Нагасаки - Такаси Нагаи
