Цифровой анализ прозы Паустовского: как Python помогает раскрыть секреты литературного мастерства
Константина Паустовского часто называют художником слова, чьи произведения обладают особым «свечением» и внутренней мелодикой. Читатели отмечают, что его тексты вызывают необычайный эмоциональный подъем и чувство сопричастности. Чтобы дешифровать этот эстетический эффект и понять, из чего складывается магия его прозы, я решил провести лингвистическое исследование с помощью языка Python.
Гипотеза: сенсорная атмосфера и перцептивная лексика
Мое предположение заключалось в том, что Паустовский мастерски выстраивает «сенсорную» среду, апеллируя к органам чувств читателя: зрению, слуху и осязанию. Такой подход позволяет не просто описывать события, а буквально погружать человека в пространство текста, заставляя его физически ощущать атмосферу сцены.
Ключевым инструментом для создания такого эффекта служат перцептивные глаголы — слова, обозначающие акты восприятия и ответные когнитивные или эмоциональные реакции. Я разделил их на несколько категорий:
- Зрительные: всматриваться, созерцать, мелькать.
- Слуховые: доноситься, рокотать, затихать.
- Тактильные и эмоциональные: ощущать, содрогаться, чувствовать.
Для анализа я сформировал корпус из текстов 4-го тома полного собрания сочинений Паустовского, куда вошли его знаменитые рассказы о природе.
Технологический стек и методология
Для автоматизации процесса извлечения и анализа лексем я использовал современный инструментарий Python:
- Razdel: для качественной токенизации и корректной обработки пунктуации.
- Pymorphy3: для лемматизации (приведения слов к начальной форме) и морфологической фильтрации.
- Collections.Counter: для статистического учета частотности.
Особое внимание я уделил формированию словаря перцептивных глаголов. Поскольку в художественной литературе такие слова часто используются в метафорическом ключе, я выбрал метод ручной модерации лексикона вместо автоматической кластеризации. Это обеспечило более высокую точность исследования.
def find_perception_verbs(text, perception_verbs_set):
# Токенизация и очистка от некириллических символов
tokens = [
token.text.lower()
for token in tokenize(text)
if re.fullmatch(r'[а-яё]+', token.text.lower())
]
found_verbs = []
for token in tokens:
parsed = morph.parse(token)
if not parsed:
continue
lemma = parsed[0].normal_form
pos = parsed[0].tag.POS
# Проверка на принадлежность к целевой группе глаголов
if lemma in perception_verbs_set and pos in ('VERB', 'INFN'):
found_verbs.append(token)
return found_verbs
В коде реализована фильтрация через регулярные выражения для исключения технического «шума» (номеров страниц, латиницы и артефактов оцифровки), что гарантирует чистоту выборки.
Результаты исследования
Обработка массива данных объемом более 200 тысяч слов дала следующие статистические показатели:
- Общий объем корпуса: 201 851 слово.
- Общее количество глаголов: 37 973.
- Доля глаголов восприятия: 1 925 (5,1% от общего глагольного фона).
- Глаголы действия: 781 (2,1%).
Топ-10 наиболее частотных глаголов восприятия:
- Знать — 357
- Видеть — 230
- Понимать — 214
- Увидеть — 192
- Замечать — 140
- Думать — 126
- Любить — 114
- Узнавать — 100
- Слышать — 90
- Услышать — 78
Выводы: проза глазами художника
Эмпирические данные подтвердили гипотезу: Паустовский действительно делает ставку на перцепцию. Тот факт, что каждый двадцатый глагол в тексте относится к сфере восприятия, свидетельствует о высокой плотности сенсорных образов.
Доминирование визуальных модальностей («видеть», «замечать», «увидеть») подчеркивает «живописный» характер его творчества. Количественный анализ доказал: определение Паустовского как «художника слова» — это не просто красивая метафора, а объективная лингвистическая характеристика его стиля. Данный эксперимент наглядно демонстрирует, как методы Data Science позволяют глубже интерпретировать классическую литературу.



