Цифровая филология: математическое измерение диалога Марины Цветаевой и Беллы Ахмадулиной
Таруса — знаковое место на карте русской литературы. Здесь, на живописном берегу Оки, прошло детство Марины Цветаевой, а десятилетия спустя обосновалась Белла Ахмадулина. Хотя поэтессы принадлежали к разным эпохам и никогда не встречались, их памятники сегодня замерли друг против друга на городской набережной, воплощая незримую связь. Мне стало любопытно исследовать эту преемственность не только на уровне ощущений, но и с помощью инструментов Data Science. Используя Python, я решил проанализировать «цветаевский код» в лирике Ахмадулиной и математически подтвердить родство их поэтических миров.
В творчестве Ахмадулиной мы находим прямое обращение к предшественнице, пронизанное глубоким пиететом:
Я целовала крутолобье волн,
просила море: Притворись водою!
Страшусь тебя, словно изгнали вон
в зыбь вечности с невнятною звездою.
Та любит твердь за тернии пути,
пыланью брызг предпочитает пыльность
и скажет: Прочь! Мне надобно пройти.
И вот проходит — море расступилось.
Для начала я сосредоточился на поиске и анализе ключевых лексем-маркеров, характерных для цветаевской поэтики: «лоб», «горло», «путь», «дом». Первый этап работы — предобработка текста и лемматизация.
TARGET_LEMMAS = {'лоб', 'горло', 'гортань', 'путь', 'дом'}
def normalize_and_tokenize(text):
# Очистка текста от пунктуации и приведение к нижнему регистру
text = re.sub(r'[^а-яё\s]', ' ', text.lower())
return [token.text for token in razdel.tokenize(text)]
def count_lemmas(tokens):
counts = {lemma: 0 for lemma in TARGET_LEMMAS}
for token in tokens:
if len(token) < 2:
continue
parsed = morph.parse(token)
if parsed:
lemma = parsed[0].normal_form
if lemma in TARGET_LEMMAS:
counts[lemma] += 1
return counts
Алгоритм очищает массив данных от лишних символов и с помощью библиотеки pymorphy3 приводит слова к начальной форме. Это критически важно для корректного подсчета, чтобы система распознавала «лбу», «лбом» и «лба» как единую смысловую единицу.
Частотный анализ мотивов
| Мотив / Образ | Ахмадулина (абс. частота) | Цветаева (абс. частота) |
|---|---|---|
| дом | 40 | 179 |
| лоб | 10 | 111 |
| горло | 4 | 17 |
| гортань | 4 | 4 |
| путь | 4 | 89 |
Очевидно, что для Цветаевой эти образы являются фундаментальными образующими её художественной системы. Однако важно другое: Ахмадулина не просто заимствует отдельные слова, она инкорпорирует всю систему, включая такие специфические лексемы, как «гортань». Это свидетельствует о глубоком погружении в образную среду предшественницы.
Чтобы оценить значимость этих слов в контексте всего корпуса текстов, я применил метрику TF-IDF. Она позволяет понять «вес» слова, учитывая его уникальность для конкретного автора.
vectorizer = TfidfVectorizer(vocabulary=TARGET_LEMMAS, lowercase=True, token_pattern=r'(?u)\b[а-яё]+\b')
tfidf_matrix = vectorizer.fit_transform([text_bella, text_marina])
Результаты TF-IDF анализа
| Образ | Вес (Ахмадулина) | Вес (Цветаева) |
|---|---|---|
| дом | 0.9748 | 0.7573 |
| путь | 0.1625 | 0.5128 |
| горло | 0.1083 | 0.0868 |
| лоб | 0.1083 | 0.3944 |
| гортань | 0.0000 | 0.0222 |
Лексема «дом» демонстрирует высочайшие показатели у обоих авторов, становясь точкой пересечения их диалога. У Ахмадулиной показатель даже выше, что подчеркивает экзистенциальную важность этого понятия в её лирике.
Наиболее захватывающим этапом стало вычисление семантического сходства контекстов с помощью нейросетевой модели SBERT. Я анализировал не просто слова, а смысловое окружение (окно из 5 слов вокруг цели), превращая их в многомерные векторы (эмбеддинги).
model = SentenceTransformer('sentence-transformers/paraphrase-multilingual-MiniLM-L12-v2')
# Извлечение контекста и расчет косинусного сходства...
Показатели косинусного сходства (Cosine Similarity):
- «дом»: 0.957
- «лоб»: 0.914
- «горло»: 0.856
- «путь»: 0.826
Коэффициент выше 0.8 указывает на практически идентичное смысловое наполнение. «Дом» для обеих поэтесс — это не бытовое пространство, а категория судьбы и одиночества. «Горло» и «лоб» неразрывно связаны с физиологией творческого акта и «мукой слова».
Подтверждение этому мы находим в строках Ахмадулиной 1968 года:
Тяжелой болью памяти к тебе,
когда, хлебая безвоздушность горя,
от задыхания твоих тире
до крови я откашливала горло.
Цифровой анализ наглядно демонстрирует: преемственность Ахмадулиной по отношению к Цветаевой носит не поверхностный характер цитирования, а глубокий системный уровень. Код помог увидеть, как один большой поэт сознательно или подспудно воссоздает художественную ДНК другого, продолжая начатый десятилетия назад диалог.

