Уже ни для кого не секрет, что февральский релиз Anthropic представил обновленные версии моделей Claude под индексом 4.6. Мои попытки сопоставить флагманский Opus и производительный Sonnet не дали однозначных ответов. Тогда я задался вопросом: а что, если провести не горизонтальное, а вертикальное сравнение? Для многих пользователей, и для меня в частности, Sonnet — это в первую очередь инструмент для работы с текстом. Предыдущая итерация (4.5) демонстрировала впечатляющие результаты. Но каков прогресс новой версии?
В этом обзоре я устрою дуэль: Sonnet 4.5 против Sonnet 4.6. Мы столкнем лицом к лицу два поколения одной и той же нейросети. Испытания затронут как генерацию контента, так и глубокое взаимодействие с ним. Наша цель — выяснить, действительно ли произошел качественный скачок или же восприятие текста стало хуже. Разумеется, все выводы основаны на моем субъективном опыте и могут отличаться от ваших впечатлений. Устраивайтесь поудобнее, мы начинаем.

Обзор ключевых изменений в новой итерации
Линейка Sonnet позиционируется как золотая середина в экосистеме Anthropic. Именно эту модель предпочитает большинство пользователей, так как она гармонично сочетает в себе скорость Haiku и когнитивные способности Opus. Она достаточно интеллектуальна для решения сложных задач и достаточно шустра для динамичного диалога.
В версии 4.6 значительный упор был сделан на функцию Computer Use. Теперь нейросеть способна взаимодействовать с интерфейсом ПК практически на уровне человека: управлять курсором, заполнять формы и манипулировать данными в различных приложениях без использования API.
Также существенно возросла устойчивость к атакам типа «инъекция инструкций» (prompt injection). Новая версия гораздо эффективнее распознает скрытые вредоносные команды, интегрированные в веб-страницы, по сравнению с Sonnet 4.5.
Объем контекстного окна расширился до внушительного одного миллиона токенов. Это открывает возможности для анализа колоссальных объемов данных: от целых репозиториев программного кода до многостраничных юридических архивов.
Примечательным нововведением стала система режимов рассуждения (Thinking): появилась возможность полностью отключить цепочку мыслей, использовать расширенное глубокое обдумывание или полагаться на адаптивный режим.
Разработчикам также предложили обновленный инструментарий: интеллектуальное сжатие истории диалога, улучшенные механизмы веб-поиска и поддержку интеграции с внешними базами данных. Это лишь вершина айсберга, но самые значимые изменения мы затронули.
Важное уточнение
Доступ к обеим моделям для тестирования был получен через платформу-агрегатор BotHub. Сервис предлагает широкий спектр инструментов: от текстовых нейросетей до систем транскрибации и видеогенерации. По этой ссылке при регистрации начисляется 300 000 капсов для проведения собственных тестов.
Методология сравнения
Сегодняшний бенчмарк полностью сфокусирован на текстовых операциях. Мы проведем пять испытаний, каждое из которых оценивается по шкале от 1 до 3 баллов:
-
1 балл — задача провалена.
-
2 балла — задача выполнена, но присутствуют недочеты.
-
3 балла — безупречное исполнение.
Оценка носит экспертно-субъективный характер и отражает мое видение качественного текста. К каждому этапу прилагаются скриншоты, чтобы вы могли сформировать собственное мнение.
Этап №1 — Креативная генерация на заданную тему
Скрытый текст
Напиши юмористический рассказ в жанре фэнтезийного магического средневековья. Действие должно происходить в антураже, напоминающем европейское средневековье с магами, трактирами, рыцарями и драконами. Рассказ должен состоять ровно из трех глав примерно одинакового объема (небольшого).
У рассказа должна быть классическая структура с завязкой, развитием и обязательным логическим концом, финал должен быть смешным и завершенным, не обрывай повествование на полуслове. Юмор должен быть умным и ситуационным, избегай глупых шуток ниже пояса, абсурдного сюрреализма и тупого юмора. Сделай акцент на иронии, нелепых магических неудачах, комичных персонажах и пародии на штампы фэнтези. Главный герой или герои должны столкнуться с магической проблемой, которая решается самым неожиданным и смешным способом.
Язык рассказа сделай легким, живым, современным, но с легким налетом старины в диалогах, чтобы сохранить атмосферу средневековья.
Этап №2 — Работа с ключевыми словами в художественном контексте
Скрытый текст
Твоя задача – написать короткий художественный рассказ, в котором обязательно должны быть использованы следующие ключевые слова: кот, сапог, ночь, адронный коллайдер. Рассказ должен быть небольшим по объему, не менее 10 абзацев, но не более 15. При этом, несмотря на малый объем, история должна содержать все основные элементы сюжета, то есть завязку, которая введет в курс дела, развитие действия, где произойдет основное событие, и развязку, которая подведёт логичный итог повествованию. Свяжи эти слова в единую и интересную историю.
Этап №3 — Реферирование (сжатие) текста
В качестве исходника я взял фрагмент лекционного материала. Задача модели: сократить объем, сохранив при этом все критически важные тезисы и логику изложения.
Этап №4 — Технический перевод
Скрытый текст
Most surveying frameworks are erected by measuring the angles and the lengths of the sides of a chain of triangles connecting the points fixed by global positioning. The locations of ground features are then determined in relation to these triangles by less accurate and therefore cheaper methods. Establishing the framework ensures that detail surveys conducted at different times or by different surveyors fit together without overlaps or gaps.
For centuries the corners of these triangles have been located on hilltops, each visible from at least two others, at which the angles between the lines joining them are measured; this process is called triangulation. The lengths of one or two of these lines, called bases, are measured with great care; all the other lengths are derived by trigonometric calculations from them and the angles. Rapid checks on the accuracy are provided by measuring all three angles of each triangle, which must add up to 180 degrees.
In small flat areas, working at large scales, it may be easier to measure the lengths of all the sides, using a tape or a chain, rather than the angles between them; this procedure, called trilateration, was impractical over large or hilly areas until the invention of electromagnetic distance measurement (EDM) in the mid-20th century. This procedure has made it possible to measure distances as accurately and easily as angles, by electronically timing the passage of radiation over the distance to be measured; microwaves, which penetrate atmospheric haze, are used for long distances and light or infrared radiation for short ones. In the devices used for EDM, the radiation is either light (generated by a laser or an electric lamp) or an ultrahigh-frequency radio beam. The light beam requires a clear line of sight; the radio beam can penetrate fog, haze, heavy rain, dust, sandstorms, and some foliage. Both types have a transmitterreceiver at one survey station. At the remote station the light type contains a set of corner mirrors; the high-frequency type incorporates a retransmitter (requiring an operator) identical to the transmitter-receiver at the original station. A corner mirror has the shape of the inside of a corner of a cube; it returns light toward the source from whatever angle it is received, within reasonable limits. A retransmitter must be aimed at the transmitter-receiver.
In both types of instrument, the distance is determined by the length of time it takes the radio or light beam to travel to the target and back. The elapsed time is determined by the shift in phase of a modulating signal superimposed on the carrier beam. Electronic circuitry detects this phase shift and converts it to units of time; the use of more than one modulating frequency eliminates ambiguities that could arise if only a single frequency had been employed.
EDM has greatly simplified an alternative technique, called traversing, for establishing a framework. In traversing, the surveyor measures a succession of distances and the angles between them, usually along a traveled route or a stream. Before EDM was available, traversing was used only in flat or forested areas where triangulation was impossible. Measuring all the distances by tape or chain was tedious and slow, particularly if great accuracy was required, and no check was obtainable until the traverse closed, either on itself or between two points already fixed by triangulation or by astronomical observations.
In both triangulation and traversing, the slope of each measured line must be allowed for so that the map can be reduced to the horizontal and referred to sea level. A measuring tape may be stretched along the ground or suspended between tripods; in precise work corrections must be applied for the sag, for tension, and for temperature if these differ from the values at which the tape was standardized. In work of the highest order, known as geodetic, the errors must be kept to one millimetre in a kilometre, that is, one part in 1,000,000.
Этап №5 — Литературный перевод поэзии
Скрытый текст
Gemächlich in der Werkstatt saß
Zum Frühtrunk Meister Nikolas,
Die junge Hausfrau schenkt’ ihm ein,
Es war im heitern Sonnenschein. –
Die Sonne bringt es an den Tag.
Die Sonne blinkt von der Schale Rand,
Malt zitternde Kringeln an die Wand,
Und wie den Schein er ins Auge faßt,
So spricht er für sich, indem er erblaßt :
»Du bringst es doch nicht an den Tag« –
»Wer nicht? was nicht?«. die Frau fragt gleich,
»Was stierst du so an? was wirst du so bleich?«
Und er darauf: »Sei still, nur still !
Ich’s doch nicht sagen kann noch will.
Die Sonne bringt’s nicht an den Tag.«
Die Frau nur dringender forscht und fragt,
Mit Schmeicheln ihn und Hadern plagt,
Mit süßem und mit bitterm Wort;
Sie fragt und plagt ihn Ort und Ort :
»Was bringt die Sonne nicht an den Tag?«
»Nein nimmermehr!« – »Du sagst es mir noch.«
»Ich sag es nicht.« – »Du sagst es mir doch.«
Da ward zuletzt er müd und schwach
Und gab der Ungestümen nach. –
Die Sonne bringt es an den Tag.
»Auf der Wanderschaft, ‘s sind zwanzig Jahr,
Da traf es mich einst gar sonderbar.
Ich hatt nicht Geld, nicht Ranzen, noch Schuh,
War hungrig und durstig und zornig dazu. –
Die Sonne bringt’s nicht an den Tag.«
Da kam mir just ein Jud in die Quer,
Ringsher war’s still und menschenleer,
›Du hilfst mir, Hund, aus моей Not!
Den Beutel her, sonst schlag ich dich tot!‹
Die Sonne bringt’s nicht an den Tag.
Und er: ›Vergieße nicht mein Blut,
Acht Pfennige sind mein ganzes Gut!‹
Ich glaubt ihm nicht und fiel ihn an ;
Er war ein alter, schwacher Mann –
Die Sonne bringt’s nicht an den Tag.
So rücklings lag er blutend da;
Sein brechendes Aug in die Sonne sah;
Noch hob er zuckend die Hand empor,
Noch schrie er röchelnd mir ins Ohr.
›Die Sonne bringt es an den Tag!‹
Ich macht ihn schnell noch vollends stumm
Und kehrt ihm die Taschen um und um:
Acht Pfenn’ge, das war das ganze Geld.
Ich scharrt ihn ein auf selbigem Feld –
Die Sonne bringt’s nicht an den Tag.
Dann zog ich weit und weiter hinaus,
Came hier ins Land, bin jetzt zu Haus. –
Du weißt nun meine Heimlichkeit,
So halte den Mund und sei gescheit!
Die Sonne bringt’s nicht an den Tag.
Wann aber sie so flimmernd scheint,
Ich merk es wohl, was sie da meint,
Wie sie sich müht und sich erbost, –
Du, schau nicht hin und sei getrost :
Sie bringt es doch nicht an den Tag.«
So hatte die Sonn eine Zunge nun,
Der Frauen Zungen ja nimmer ruhn. –
»Gevatterin, um Jesus Christ!
Laßt Euch nicht merken, was Ihr nun wißt!« –
Nun bringt’s die Sonne an den Tag.
Die Raben ziehen krächzend zumal
Nach dem Hochgericht, zu halten ihr Mahl.
Wen flechten sie aufs Rad zur Stund?
Was hat er getan? wie ward es kund?
Die Sonne bracht es an den Tag.
Ход эксперимента
Раунд 1
Sonnet 4.6

Текст получился добротным, но не вызвал у меня особого восторга. Комедийная составляющая ограничена лишь самой концепцией икающего дракона. Я сниму полбалла, так как уровень юмора показался мне довольно средним; другие модели выдавали куда более остроумные сюжеты.
Sonnet 4.5

Этот вариант от Sonnet 4.5 выглядит на порядок интереснее. Юмор здесь более живой, а ирония считывается легче. Модель заслуженно получает высший балл за этот раунд.
Раунд 2
Sonnet 4.6

Любопытное произведение с мистическим подтекстом. Модель отлично справилась с интеграцией всех слов. Ставлю 3 балла.
Sonnet 4.5

Сюжет вышел чуть более прямолинейным. Хотя история логична, эпизод с котом и детектором выглядит слегка натянуто. Тем не менее, задача выполнена корректно. Также 3 балла.
Раунд 3
Sonnet 4.6

Сжатие выполнено адекватно, но часть смысловых нюансов лекции была утеряна в погоне за краткостью. Такой конспект требует обращения к оригиналу для полного понимания. Оцениваю в 2 балла.
Sonnet 4.5

Вариант версии 4.5 субъективно кажется более структурированным. Четкие дефиниции терминов и внимание к деталям при схожем объеме делают эту выжимку более полезной. Заслуженные 3 балла.
Раунд 4
Sonnet 4.6

Качественный перевод без фактических ошибок. Приятно удивило уместное выделение терминологии, что повышает читаемость профессионального текста. Максимальный балл.
Sonnet 4.5

Тоже достойный результат. В отличие от версии 4.6, эта модель сохранила оригинальную структуру повествования без изменений в формулировках (например, «одна часть на миллион» вместо адаптивного «одна миллионная»). Оба варианта хороши. 3 балла.
Раунд 5
Sonnet 4.6

Смысл передан, структура соблюдена, но поэзия исчезла. Текст лишен ритмики и рифмовки, образы выглядят сухими и «машинными». Ждать от ИИ уровня профессионального переводчика стихов пока рано. Больше 2 баллов поставить не могу. Для сравнения привожу классический художественный перевод:
Скрытый текст
Был утренний пригожий час.
Уютно мастер Николас
Расположился у стола,
Хозяйка завтрак подала.
Все солнце вывело на свет.
Оно плясало на стене
И в чашке плавало на дне.
Едва он это увидал,
Он побледнел и прошептал:
«Нет, ты не выведешь на свет!»
«Кто „не“? Что „не“?» — кричит жена.
Уж не отвяжется она.
«Молчать! Ни слова! Ни гу_гу!..
Сказать тебе я не могу…
Оно не выведет на свет!»
Жена настойчива была.
Она пилила, как пила,
Выпытывала день-деньской:
«Ты что глядишь с такой тоской?
Что, что не вылезет на свет?
Откройся мне!» — «Нет, никогда».
«Скажи мне!» — «Нет! — Но после: — Да!»
Своей настырностью всего
Она добилась от него:
Все солнце вывело на свет.
«Уж двадцать лет с тех пор прошло,
Порой бывало тяжело,
Я голоден был, нищ и зол,
Тут случай и произошел…
Не должен выйти он на свет!
Зайдя в пустынные края,
Еврея как-то встретил я.
Я крикнул: «Кошелек давай,
Не то отправлю к богу в рай, —
Не выйдет ничего на свет!»
Он восемь пфеннигов достал,
«Вот все добро моё», — сказал.
Я не поверил и убил.
Убог и немощен он был…
Не вышло ничего на свет!
На солнце в свой последний миг
Смотрел поверженный старик.
Он кулаком мне погрозил
И крикнул из последних сил:
«Все солнце выведет на свет!»
Он стих. Я обыскал его,
Не обнаружив ничего:
Лишь восемь пфеннигов нашел.
Зарыл я труп и прочь побрел.
Не выйдет ничего на свет!
Пришел в деревню я твою,
Обрел здесь дом, обрел семью…
Теперь ты знаешь все, жена,
И ты молчать о том должна:
Не выйдет ничего на свет!
Как ни сияет солнца свет,
Оно не выдаст мой секрет —
Никто не ведает о нем.
Как солнце ни гори огнем,
Оно не выведет на свет!»
Язык, однако, солнцу дан —
Ведь язычок у женщин рьян.
«Не приведи господь, кума,
Вам знать, что знаю я сама:
Все солнце вывело на свет!»
Вот стая воронья летит
Туда, где эшафот стоит.
Но кто же нынче там казнен?
И кто привел к нему закон?
Все солнце вывело на свет!
Sonnet 4.5

Здесь результат удручающий. Модель проигнорировала деление на строфы, а качество самого текста оказалось крайне низким. На мой взгляд, это всего лишь 1 балл.
Резюме
|
Критерий |
Sonnet 4.6 |
Sonnet 4.5 |
|
Креатив |
2,5 |
3 |
|
Ключевые слова |
3 |
3 |
|
Сжатие текста |
2 |
3 |
|
Тех. перевод |
3 |
3 |
|
Поэзия |
2 |
1 |
|
Итог |
12,5 |
13 |
Как видно из итоговой таблицы, версия 4.5 сохраняет минимальное лидерство. Если отбросить субъективизм, можно констатировать: обе модели находятся на сопоставимо высоком уровне в работе с текстом.
Sonnet 4.6 продемонстрировала прогресс в техническом переводе, но в задачах на суммаризацию и чистую генерацию с нуля она показалась мне чуть менее убедительной, чем предшественница. Впрочем, разница невелика, и выбор между ними — вопрос личных предпочтений. Лично для меня Sonnet 4.5 остается более гармоничным инструментом.


