С помощью Google Books проанализируют культуру за несколько столетий

Поделиться
Исследователи из Гарвардского университета и компания Google реализуют необычный научный проект, задача которого заключается в "изучении культуры в количественном выражении". Используя библиотеку из миллионов отсканированных компанией Google книг, авторы проекта пытаются отследить особенности использования языка и различных общественно-важных тенденций на протяжении сотен лет.

В библиотеке отсканированных книг Google присутствуют книги с 1500 до 2008 года издательства. Всего здесь значится около 5 миллионов книг или 4% от общего количества изданных книг в мире. Основная масса отсканированных книг написана на английском, китайском, немецком, французском, испанском и русском языках. Согласно данным компании, в сумме во всех отсканированных книгах содержится более 500 млрд слов. В Google отмечают, что новый сервис, получивший название Books Ngram Viewer позволяет представить в новой форме количественные показатели по различным областям академических знаний, отследить исторические тренды, новые идеи и др. за счет отслеживания популярности тех или иных ключевых слов или фраз в текстах книг.

В Google называют подобную метрику уникальной. Интернет-гигант отмечает, что сейчас компания находится в процессе оцифровки еще примерно 10 миллионов книг, но эта работа еще не завершена и мета-данные по книгам не обновлены. Исследователи говорят, что разные книги в библиотеке Google оцифрованы с разным качеством, поэтому для наиболее полноценного анализа работа идет только с качественными материалами. В Гарварде говорят, что ими уже была обработана коллекция книг, которая, если бы читалась одним человеком, заняла бы у него 80 лет (при том, что человек бы не отвлекался на еду, сон и другие потребности). Авторы проекта провели несколько простых анализов, определяющих частоту конкретных слов в общем объеме книжных слов, напечатанных в книгах за тот или иной год. Данные исследований показывают, что в 1900 году напечатаны были около 1,4 миллиарда слов, а вот столетие спустя этот показатель составил уже 8 миллиардов слов. Из этого объема слов исследователи составили так называемые н-граммы или короткие фразы из пяти слов. Исследователи говорят, что это довольно простая задача, но она достаточна, чтобы обнаружить некоторые основные литературные тенденции.

Например в США во время гражданской войны (1861-1865гг) отмечен всплеск слова "рабство" и словоформ, связанных с ним. В книгах чуть более позднего периода довольно часто упоминается словосочетание "движение за гражданские права". Еще одним интересным моментом исследования стало выявление новых слов и выражений, называемых неологизмами. Всего с 1950 по 2000 годы в восьми исследуемых языках исследователи насчитали около миллиарда разных слов, причем каждый год появлялось примерно по 8500 новых слов.

При этом отмечается, что в словарях неологизмов содержится в лучшем случае треть новых слов. Есть в книгах и отмирающие слова, которые уже непривычны слуху современных жителей, но были нормой еще для предыдущего поколения. Исследователи использовали данные сетевых энциклопедий Википедия и Британика для отслеживания "траекторий знаменитостей". На основании проведенного анализа авторы проекта говорят, что в сравнении с 1800-м годом наши знаменитости помолодели, в то же время период их "звездности" сократился примерно вдвое. Актеры становятся довольно известными уже к 30 годам, против 50 лет ранее. В то же время, политики и авторы книг становятся сейчас известными старше, чем ранее. Снизился интерес и к таким людям, как ученые из области физики, химии, биологии и математики.

"К сожалению, приходится утверждать, что наука это плохой путь к славе", - говорят авторы исследования. Подразделение Google Labs создало веб-интерфейс, чтобы все желающие могли проследить интересующие их тенденции. Он доступен по адресу http://ngrams.googlelabs.com/ В компании говорят, что некоторые запросы дают логичные, но неожиданные результаты. Например, из-за множественного значения слова "панк" оно стало более популярным, чем "рок-н-ролл", хотя первое является поджанром последнего.

По материалам CyberSecurity.ru

Поделиться
Заметили ошибку?

Пожалуйста, выделите ее мышкой и нажмите Ctrl+Enter или Отправить ошибку

Добавить комментарий
Всего комментариев: 0
Текст содержит недопустимые символы
Осталось символов: 2000
Пожалуйста выберите один или несколько пунктов (до 3 шт.) которые по Вашему мнению определяет этот комментарий.
Пожалуйста выберите один или больше пунктов
Нецензурная лексика, ругань Флуд Нарушение действующего законодательства Украины Оскорбление участников дискуссии Реклама Разжигание розни Признаки троллинга и провокации Другая причина Отмена Отправить жалобу ОК
Оставайтесь в курсе последних событий!
Подписывайтесь на наш канал в Telegram
Следить в Телеграмме