Вопрос об истинном авторстве культового романа «Двенадцать стульев» породил множество споров, возникших сразу после первой публикации произведения. Илья Ильф и Евгений Петров — авторы, до этого момента широкой публике почти неизвестные — внезапно оказались в центре литературного триумфа. Их роман был переведен на десятки языков, а сюжет стал основой для множества театральных постановок и экранизаций.
Согласно общепринятой версии, Валентин Катаев, выступив в роли своего рода «литературного продюсера», предложил своему младшему брату и его товарищу написать роман по заданному им сюжету и с готовыми характерами персонажей. Сотрудничество было оформлено договором, но после феноменального успеха проекта Катаев якобы расторг соглашение, оставив за собой лишь право на посвящение в книге: «Посвящается Валентину Петровичу Катаеву».
Литературоведческие дискуссии вокруг авторства ведутся по сей день, и их результаты зачастую полярны. Исследователи опираются на самые разные источники — от черновиков и частной переписки до мемуаров современников и архивных документов. Столь противоречивые выводы объясняются как фрагментарностью сохранившихся свидетельств, так и значительным влиянием теорий заговора.
Конспирологический аспект здесь не случаен: роман создавался в период становления молодого государства, когда границы, власть и идеология претерпевали радикальные трансформации. В условиях еще не завершившейся Гражданской войны советское руководство остро нуждалось в создании привлекательного имиджа страны как внутри, так и на международной арене. Силовые структуры, плотно контролировавшие литературный процесс через цензуру и систему поощрений, имели все возможности для «редактирования» истории. Именно это влияние спецслужб часто называют главным аргументом сторонники альтернативных версий авторства.
Очевидно, что, опираясь на разные пласты мемуаристики, можно обосновать диаметрально противоположные гипотезы. Однако у нас есть объективный материал для анализа — сам текст романа.
Около двенадцати лет назад, увлекшись этой темой, я провел собственное статистическое исследование. Тогда результаты указывали на высокую вероятность участия Булгакова, в то время как вклад Ильфа и Петрова выглядел менее значимым. За прошедшее десятилетие методы компьютерного анализа значительно усовершенствовались, и мне стало любопытно проверить те же гипотезы с помощью современных алгоритмов.
Методология исследования заключается в сопоставлении канонических текстов Булгакова, Ильфа и Петрова с романом «Двенадцать стульев», который мы временно рассматриваем как «анонимный» объект.
Для математического анализа я использую косинусное сходство и «Дельту Берроуза»: чем ближе показатели к единице, тем выше лексическое и стилистическое совпадение текстов.
Сравнительный анализ «Белой гвардии» (Булгаков) и «Двенадцати стульев»:
СТАТИСТИКА ТЕКСТОВ:
author word_count unique_words avg_word_length lexical_diversity
0 Булгаков 69693 18714 5.272811 0.268521
1 Двеннадцать стуль 110829 28846 5.647358 0.260275
Косинусное сходство: 0.347
Дельта Берроуза: 0.609
Сравнение «Одноэтажной Америки» (Ильф и Петров) с «Двенадцатью стульями»:

Поскольку «Одноэтажная Америка» может быть не самым репрезентативным примером, я также привлек сборник фельетонов Ильфа и Петрова:

В обоих случаях показатели сходства остаются невысокими, хотя у дуэта Ильфа и Петрова они всё же выглядят убедительнее.
Для углубления исследования я задействовал шесть моделей машинного обучения. В качестве обучающей выборки были взяты произведения Булгакова, Ильфа, Петрова, Олеши и Катаева, а также их совместные работы. «Двенадцать стульев» и «Золотой телёнок» были исключены из датасета, чтобы модели могли предсказать их авторство независимо.

Несмотря на то, что это лишь любительский проект, результаты оказались весьма показательными.
Прогноз авторства для полного текста «Двенадцати стульев»:

Прогноз для первой главы:

Прогноз для второй главы:

Интересная деталь: возможно, Валентин Катаев действительно приложил руку к правке рукописи в самом начале. Однако дальнейший анализ случайных глав подтверждает доминирующее авторство Ильфа и Петрова.
Что касается «Золотого телёнка», то здесь модели демонстрируют ещё большую уверенность:

Математические модели однозначно указывают на то, что «Двенадцать стульев» написаны именно Ильфом и Петровым, при этом возможны лишь незначительные заимствования отдельных фраз. Тем не менее, дискуссия осложняется тем, что существует несколько версий текста: от первой редакции 1927 года, подвергшейся жесткой цензуре, до поздних советских изданий и современных реконструкций. Часто в книгах не указывается, какой именно вариант перед нами.
Вот как модели определяют авторство версии 1927 года:

Вопрос о «булгаковских смыслах» в романе остается открытым и требует отдельного, более детального изучения.