Сенсорная ткань текста: алгоритмический анализ перцептивной атмосферы на Python

16.12.2025

Цифровой анализ прозы Паустовского: как Python помогает раскрыть секреты литературного мастерства

Константина Паустовского часто называют художником слова, чьи произведения обладают особым «свечением» и внутренней мелодикой. Читатели отмечают, что его тексты вызывают необычайный эмоциональный подъем и чувство сопричастности. Чтобы дешифровать этот эстетический эффект и понять, из чего складывается магия его прозы, я решил провести лингвистическое исследование с помощью языка Python.

Гипотеза: сенсорная атмосфера и перцептивная лексика

Мое предположение заключалось в том, что Паустовский мастерски выстраивает «сенсорную» среду, апеллируя к органам чувств читателя: зрению, слуху и осязанию. Такой подход позволяет не просто описывать события, а буквально погружать человека в пространство текста, заставляя его физически ощущать атмосферу сцены.

Ключевым инструментом для создания такого эффекта служат перцептивные глаголы — слова, обозначающие акты восприятия и ответные когнитивные или эмоциональные реакции. Я разделил их на несколько категорий:

Зрительные: всматриваться, созерцать, мелькать.
Слуховые: доноситься, рокотать, затихать.
Тактильные и эмоциональные: ощущать, содрогаться, чувствовать.

Для анализа я сформировал корпус из текстов 4-го тома полного собрания сочинений Паустовского, куда вошли его знаменитые рассказы о природе.

Технологический стек и методология

Для автоматизации процесса извлечения и анализа лексем я использовал современный инструментарий Python:

Razdel: для качественной токенизации и корректной обработки пунктуации.
Pymorphy3: для лемматизации (приведения слов к начальной форме) и морфологической фильтрации.
Collections.Counter: для статистического учета частотности.

Особое внимание я уделил формированию словаря перцептивных глаголов. Поскольку в художественной литературе такие слова часто используются в метафорическом ключе, я выбрал метод ручной модерации лексикона вместо автоматической кластеризации. Это обеспечило более высокую точность исследования.

def find_perception_verbs(text, perception_verbs_set):
    # Токенизация и очистка от некириллических символов
    tokens = [
        token.text.lower()
        for token in tokenize(text)
        if re.fullmatch(r'[а-яё]+', token.text.lower())
    ]
    
    found_verbs = []
    for token in tokens:
        parsed = morph.parse(token)
        if not parsed:
            continue
            
        lemma = parsed[0].normal_form
        pos = parsed[0].tag.POS
        
        # Проверка на принадлежность к целевой группе глаголов
        if lemma in perception_verbs_set and pos in ('VERB', 'INFN'):
            found_verbs.append(token)  
            
    return found_verbs

В коде реализована фильтрация через регулярные выражения для исключения технического «шума» (номеров страниц, латиницы и артефактов оцифровки), что гарантирует чистоту выборки.

Результаты исследования

Обработка массива данных объемом более 200 тысяч слов дала следующие статистические показатели:

Общий объем корпуса: 201 851 слово.
Общее количество глаголов: 37 973.
Доля глаголов восприятия: 1 925 (5,1% от общего глагольного фона).
Глаголы действия: 781 (2,1%).

Топ-10 наиболее частотных глаголов восприятия:

Знать — 357
Видеть — 230
Понимать — 214
Увидеть — 192
Замечать — 140
Думать — 126
Любить — 114
Узнавать — 100
Слышать — 90
Услышать — 78

Выводы: проза глазами художника

Эмпирические данные подтвердили гипотезу: Паустовский действительно делает ставку на перцепцию. Тот факт, что каждый двадцатый глагол в тексте относится к сфере восприятия, свидетельствует о высокой плотности сенсорных образов.

Доминирование визуальных модальностей («видеть», «замечать», «увидеть») подчеркивает «живописный» характер его творчества. Количественный анализ доказал: определение Паустовского как «художника слова» — это не просто красивая метафора, а объективная лингвистическая характеристика его стиля. Данный эксперимент наглядно демонстрирует, как методы Data Science позволяют глубже интерпретировать классическую литературу.

Источник