В кодировке нейросеть используются термины на латыни.
Пользователь твиттера @giannis_daras заподозрил, что нейросеть DALL-E, генерирующая картинки по текстовому описанию, имеет секретный язык. Он сделала запрос: «Два фермера говорят об овощах с субтитрами» и получил изображение, на первый взгляд, c бессмысленным текстом «Vicootes» и «Apoploe vesrreaitars».
Следом пользователь дал нейросети запрос «Vicootes» — и DALLE-2 выдала ему блюда с овощами. А по запросу «Apoploe vesrreaitars» получились птицы. На основе этого пользователь сделал вывод, что, похоже, фермеры говорят о птицах, которые возятся со своими овощами.
Другой пример: по запросу «Два кита говорят о еде с субтитрами» получается изображение с написанным на нем текстом «Wa ch zod rea». Если вбить такой запрос DALL-E, то та выдаёт картинки блюд с морепродуктами.
Тестировщик отметил, что некоторые слова из «языка» DALL-E можно использовать для создания абсурдных подсказок. Например, запрос «картина Apoploe vesrreaitais» даёт изображение птицы. Пользователь сделал предположение, что «Apoploe vesrreaitais» означает для модели «нечто, что летает» и может использоваться в самых разных стилях.
Если теория верна, то «Apoploe vesrreaitais» означает «птицы»; «Contarra ccetnxniams luryca tanniounons» означает жуков или вредителей; «Vicootes» означает «овощи».
Однако, похоже, что никакого собственного языка у DALL-E вообще-то нет
Другой тестировщик, @BarneyFlames, взглянул на кодировку имени, которую DALL-E использует для обозначения птиц. Это «apo, plo, e, ve, sr, re, ait, ais». Apo-didae и Ploceidae — это латинские названия семейства птиц, каждое из которых насчитывает более 100 видов. А Apo-diformes — крупнейший отряд птиц, насчитывающий более 400 видов птиц.
Более того, оказалось, что часто нейросеть выдаёт обычную тарабарщину — при проверке, отнюдь не на все запросы DALLE-2 выдавала что-то, что соответствует описанию на «секретном» языке.
Например, как утверждал пользователь @giannis_daras, «Contarra ccetnxniams luryca tanniounons» означает жуков или вредителей. Однако по этому запросу у другого пользователя, @benjamin_hilton, DALL-E выдала много разных животных.
Кроме того, ключом к заявлениям о «секретном языке» DALL-E является то, что эти термины применяются ко всем подсказкам DALL-E, в том числе в более сложных, когда, например, идёт запрос на изменение стиля. Однако если добавить к тексту «Contarra ccetnxniams luryca tanniounons» «3D-render», то в 3D получаются объекты, связанные с морем — а совсем не жуки.
А запросы «Contarra ccetnxniams luryca tanniounons, cartoon« (то есть задание нарисовать всё в мультяшном стиле) и «Contarra ccetnxniams luryca tanniounons, painting» (в стиле живописи) почему-то выдают пожилых женщин.
Примечательно так же, что если добавить к запросу «Apoploe vesrreaitais» (что якобы означает на языке DALL-E «птицы») , уточнения стиля, то нейросеть начинает показывать результаты с жуками.
Как утверждал @giannis_daras, «Vicootes» означает «овощи». Но если уточнить стиль изображения, то нейросеть выдаёт совсем другое — странных персонажей, случайные объекты, цветы и пейзажи.
Иными словами, очень похоже на то, что никакого «секретного языка» у нейросети нет. Некоторые запросы могут быть подкреплены реальными названиями видом на латыни, но в большинстве случаев это — рандом.
Более того, DALL-E, кажется, избегает демонстрации текста
Заставить нейросеть выдать картинку с каким-либо текстом тоже оказалось не так уж просто. В примере @giannis_daras используется фраза «Два кита говорят о еде с субтитрами». Но когда пользователь @benjamin_hilton попробовал сделать то же самое, нейросеть очень долго не выдавала ему варианты с хоть сколько-то разборчивым текстом. Пока, наконец, не показала вот это:
Если исходить из того, что у DALL-E есть собственный язык, то «Evve waeles» должно означать что-то связанное с едой, китами или морем. На деле же по такому запросу нейросеть выдала десерты, футболистов, животных и чайник.