Как определить, что фото сгенерировано нейросетью Midjourney по мелким деталям

Ещё пару лет назад отличить фотографию от цифровой подделки мог практически любой — достаточно было увеличить картинку и обнаружить грубые склейки, неестественные тени или размытые контуры. Нейросети того поколения творили довольно топорно, и львиная доля фейков бросалась в глаза даже обывателю. Но Midjourney за считанные месяцы перевернула представление о границе между реальностью и синтетикой: версии от 5.0 и выше начали выдавать изображения, которые на первый взгляд неотличимы от студийной съёмки. И всё же подводные камни никуда не делись — нужно просто знать, куда именно смотреть.

Руки и пальцы — вечная ахиллесова пята

Первое, на что стоит обратить внимание, — кисти рук. Даже в шестой версии Midjourney с пальцами дело обстоит непросто. Нейросеть научилась генерировать правдоподобные лица, реалистичную кожу и красивые складки на ткани, но анатомия рук до сих пор остаётся её слабым звеном. Часто на сгенерированном фото можно насчитать шесть пальцев на одной руке или, наоборот, четыре — причём «лишний» палец прячется за кистью так ловко, что заметить его удаётся не сразу. Иногда фаланги сращиваются между собой, образуя нечто вроде перепонки. А бывает и обратная ситуация: палец загнут под анатомически невозможным углом, словно у человека нет суставов.

Стоит ли проверять каждый снимок на количество пальцев? Безусловно, если речь идёт о портрете или жанровой сцене. Кстати, особый интерес вызывают руки, сжимающие какой-либо предмет — стакан, ручку, телефон. Нейросеть довольно часто «забывает» про обхват: пальцы проходят сквозь объект или зависают в миллиметре от поверхности, не касаясь её. Ведь Midjourney не понимает физику взаимодействия — она лишь воспроизводит визуальный паттерн, подсмотренный в миллионах обучающих снимков. И когда ракурс нестандартный, подводные камни всплывают моментально.

Что выдаёт текст на изображении?

Надписи. Вот где нейросеть спотыкается чаще всего. Если на фото присутствует вывеска магазина, надпись на футболке или корешок книги — стоит вчитаться. Midjourney генерирует нечто, отдалённо напоминающее латиницу или кириллицу, но при ближайшем рассмотрении буквы превращаются в бессмысленный набор закорючек. Одна и та же «буква» может повторяться трижды подряд, а между словами расстояние гуляет как ему вздумается. Тем более что даже последние версии движка так и не научились стабильно воспроизводить конкретные слова — максимум три-четыре символа из запроса, да и те с искажениями.

Ваш личный ИИ-отдел маркетинга, который работает 24/7 📈

Ускорьте создание контента в 10 раз! Этот мульти-ИИ сервис позволяет писать безупречные продающие посты, генерировать уникальные фото для соцсетей, создавать рекламные промо-ролики с нуля и писать для них музыку в пару кликов. Идеальное решение для предпринимателей, маркетологов и SMM-специалистов. Всё в едином удобном интерфейсе — больше не нужно переключаться между десятком вкладок.

Делегируйте рутину искусственному интеллекту и увеличивайте продажи. Начните работу здесь 👉 https://clck.ru/3RNCRL

Отдельно стоит упомянуть цифры на часах, номерах автомобилей и уличных указателях. Цифры зачастую выглядят правдоподобнее букв, но если присмотреться — «8» вдруг оказывается зеркально отражённой «3», а на номерном знаке вместо привычного формата обнаруживается хаотичная каша из символов. К слову, этот нюанс — один из самых надёжных маркеров. Ведь реальная фотография почти всегда содержит хотя бы одну читаемую надпись, а на синтетическом снимке внятный текст — скорее исключение.

Глаза и зрачки

Глаза притягивают внимание в первую очередь. Это логично. И именно поэтому нейросеть научилась рисовать их довольно убедительно — с бликами, с текстурой радужки, с прожилками на белке. Но есть тонкость, которую многие упускают. На реальном фото оба зрачка отражают один и тот же источник света: если справа стоит окно — в обоих глазах блик будет справа. Midjourney же нередко рассогласовывает отражения: в левом глазу блик сверху, в правом — снизу и левее. Зрелище на первый взгляд незаметное, однако стоит увеличить фрагмент с глазами до 200–300%, и разница бросается в глаза (каламбур уместен).

Ну и, конечно же, форма зрачков. У живого человека зрачки круглые и одинаковые по размеру (если не считать медицинских аномалий). Нейросеть иногда вытягивает зрачок в овал или делает его чуть крупнее на одном глазу. А ещё бывает, что граница между радужкой и белком «плывёт» — становится нечёткой, словно акварель размыла контур. Это мелочь, но именно такие мелочи отделяют добротный фейк от реальности.

Фон и архитектурная логика

Задний план. Именно он чаще всего выдаёт искусственное происхождение снимка. Дело в том, что Midjourney концентрирует «вычислительное внимание» на главном объекте — лице, фигуре, предмете в центре кадра. А вот на периферию ресурсов уже не хватает. И начинается самое интересное: колонны, которые ведут в никуда, лестницы без перил, окна разного размера на одном этаже здания. Архитектурная логика рушится напрочь.

Особенно колоритно выглядят городские пейзажи. На таких снимках можно обнаружить дорогу, которая обрывается стеной, или мост, один конец которого упирается в здание. Многие считают, что Midjourney отлично справляется с интерьерами, но на самом деле и тут хватает промахов: двери без ручек (или с двумя ручками на разной высоте), зеркала, в которых отражение не совпадает с обстановкой перед ними, лампы без видимого крепления к потолку. К тому же перспектива в глубине кадра частенько «ломается» — линии, которые должны сходиться в одной точке, вдруг разбегаются веером.

Стоит ли доверять текстурам?

Текстуры — кладезь зацепок для внимательного наблюдателя. Midjourney генерирует невероятно красивые материалы: бархатистую кожу, блестящий металл, влажный камень. Но красота эта обманчива. При увеличении до фрагмента в 500 на 500 пикселей нередко обнаруживается повторяющийся микрорисунок — своеобразный «тайлинг», когда один и тот же крошечный паттерн клонируется по всей поверхности. На реальной фотографии текстура дерева или ткани всегда содержит микроскопические отклонения, потёртости, случайные вкрапления. Нейросеть же тяготеет к идеальной однородности.

Впрочем, есть и обратная крайность. Иногда Midjourney перенасыщает текстуру деталями — настолько, что поверхность начинает выглядеть «гиперреально». Кожа на портрете слишком гладкая, с чересчур равномерными порами. Или наоборот — слишком детализированная, с порами размером с булавочную головку, чего в жизни не увидишь при обычном фокусном расстоянии. Этот эффект довольно сложно описать словами, но, столкнувшись с ним хотя бы раз, запоминаешь навсегда. Ведь человеческий глаз интуитивно чувствует, когда детализация не соответствует масштабу съёмки.

Украшения и аксессуары

Мелкие предметы на теле — серьги, цепочки, очки, часы — ещё одна территория, где нейросеть регулярно оступается. Одна серьга может отличаться от другой по форме: левая — круглая подвеска, правая — вытянутый овал. Причём разница настолько незначительная, что без скрупулёзного сравнения её не уловишь. Цепочка на шее порой уходит «в кожу», сливаясь с ней без тени и объёма, а потом внезапно появляется снова. Дужки очков то утоньшаются до нитки, то утолщаются вдвое — и всё это в рамках одного кадра.

Нельзя не упомянуть и волосы, хотя их сложно назвать аксессуаром. Midjourney рисует шикарные причёски с невероятной детализацией каждой пряди. Но вот на границе «волосы — фон» начинается хаос: отдельные волоски врастают в одежду или исчезают в воздухе, не имея логического завершения. На реальном снимке волосинка либо свисает, либо лежит на плече. У нейросети же она может «зависнуть» посреди кадра, словно застыла в невесомости. И пусть это занимает ничтожную площадь изображения — внимательному глазу этого достаточно.

Симметрия, которой не бывает

Живой мир асимметричен. Это фундаментальное правило, о котором нейросеть то и дело забывает. Лица, созданные Midjourney, зачастую обладают почти зеркальной симметрией — обе половины практически идентичны. У настоящего человека левая бровь чуть выше правой, одна ноздря немного шире, подбородок слегка скошен. Такая микроасимметрия и делает лицо «живым». А вот идеально ровное лицо воспринимается подсознательно как неестественное, даже если сознание не может сразу сформулировать, что именно не так.

То же самое касается одежды. Настоящая рубашка мнётся неравномерно: с одной стороны складка глубже, с другой — еле заметная. Нейросеть же может продублировать складку зеркально, создав подозрительно «причёсанный» внешний вид. Кстати, пуговицы на сгенерированной одежде — отдельная история. Они то разного размера, то «врезаны» в ткань без петель, то расположены не по вертикальной линии, а слегка хаотично — но хаотично одинаково, будто шум наложили алгоритмически, а не случайно.

Как проверить подозрительный снимок?

Набор нехитрых приёмов способен серьёзно повысить точность «диагностики». Во-первых, стоит загрузить изображение в любой графический редактор и увеличить подозрительные фрагменты до 300–400%. Именно на таком масштабе всплывают артефакты, невидимые в миниатюре. Во-вторых, полезно поиграть с яркостью и контрастностью — иногда достаточно сдвинуть ползунок «уровней» влево, чтобы проявились скрытые переходы между зонами генерации. Ну и, наконец, существуют онлайн-сервисы вроде AI or Not, Hive Moderation и Illuminarty, натренированные на распознавание синтетических изображений. Их точность колеблется от 70 до 95 процентов — не идеал, но неплохое подспорье.

Отдельно стоит упомянуть метаданные. Реальная фотография, снятая на камеру или смартфон, обычно содержит EXIF-информацию: модель устройства, фокусное расстояние, ISO, геолокацию. Сгенерированное изображение такой информации лишено начисто (если, конечно, автор подделки не добавил её вручную, но это уже махинации посерьёзнее). Так что первый шаг при анализе подозрительного фото — проверка EXIF через любой доступный просмотрщик. Пустые поля — тревожный сигнал.

Тени и освещение

Свет — вещь физически детерминированная. Тень падает в строго определённом направлении, мягкость размытия зависит от расстояния до источника, а двойные тени возникают только при двух источниках света. Midjourney эти правила соблюдает приблизительно. На грандиозных пейзажных снимках солнце может светить с запада, а тени от деревьев — указывать на юг. На портрете свет падает слева, но нос почему-то отбрасывает тень не вправо, а вниз. Несоответствие это тонкое, и без привычки заметить его непросто.

Но есть трюк. Нужно мысленно провести линии от теней к предполагаемому источнику света. Если все тени на снимке «сходятся» к одной точке (или к двум, если источников несколько) — фото, скорее всего, настоящее. А вот если каждый объект отбрасывает тень в собственном направлении — перед вами почти наверняка генерация. Да и сами тени у нейросети порой выглядят странно: слишком резкие для пасмурного дня или слишком мягкие для прямого солнца. Подводных камней тут хватает.

Неоднозначные детали на заднем плане

Толпа на фоне. Если Midjourney рисует городскую сцену с людьми вдалеке, каждая из этих фигур — потенциальный «прокол». Ноги могут не касаться земли, один человек — сращиваться с другим, а у третьего голова как будто приклеена к чужому торсу. Чем дальше от центра кадра, тем грубее ошибки. Это связано с тем, что нейросеть распределяет «внимание» неравномерно: центральный объект прорисован детально, а периферия достраивается по остаточному принципу.

Ну, а отражения в воде, стёклах и глянцевых поверхностях — настоящий кладезь улик. На реальном снимке отражение в луже повторяет стоящее над ней здание, пусть и с искажениями. Midjourney может сгенерировать отражение совершенно другого объекта или просто размытое цветное пятно, не имеющее ничего общего с окружающей средой. Тем более что физику зеркального отражения нейросеть не «понимает» — она лишь имитирует визуальный эффект, и далеко не всегда удачно.

Эффект «сверхъестественной долины» в стилизации

Когда Midjourney создаёт фото в стиле «кинематографический портрет» или «Editorial Vogue», результат нередко выглядит слишком идеально. Каждая складка одежды ложится ровно так, как хотелось бы фотографу. Свет обтекает скулы безупречным рембрандтовским треугольником. Боке на фоне — ровное, с аккуратными кружочками одинакового диаметра. Живая фотография так не работает: даже у лучших мастеров в кадр попадает случайная тень, блик от очков ассистента или чуть пересвеченный край уха.

Многие считают, что избыточная красота — не повод для подозрений. Однако на практике именно «стерильность» кадра чаще всего наводит на мысль о генерации. Буквально десятилетие назад фотографы тратили часы на ретушь, чтобы добиться подобной картинки, а сейчас нейросеть выдаёт её за секунды. И всё-таки отсутствие случайности — это улика. Потому что реальность всегда немного небрежна.

Когда нейросеть ошибается с количеством

Зубы. Тема щепетильная, но игнорировать её не стоит. У взрослого человека 28–32 зуба, и при широкой улыбке видны в среднем 10–12. Midjourney не умеет считать. В её портретах можно обнаружить улыбку с 16 видимыми зубами или, наоборот, всего с шестью — причём все они абсолютно одинаковой формы, без малейшей индивидуальности. А ведь настоящие зубы слегка различаются по оттенку, длине и наклону. Искусственная «голливудская» белизна в сочетании с идентичными резцами — верный признак синтетики.

То же самое касается пуговиц, петель, спиц забора и любых повторяющихся элементов. Нейросеть плохо справляется с точным количеством: на одном лацкане три пуговицы, на другом — две. Забор начинается с узких штакетин, а заканчивается широкими. Рисунок протектора на одном ботинке отличается от другого. Подобная «неточная точность» бросается в глаза не сразу, но после пары минут пристального разглядывания вся иллюзия рассыпается.

Умение замечать такие мелочи — навык, который тренируется довольно быстро. Достаточно потратить вечер на сравнение десятка реальных фотографий с десятком генераций, и глаз начинает сам выхватывать подозрительные фрагменты. А со временем это превращается в своего рода профессиональное чутьё, которое не раз выручит в эпоху, когда грань между «снято» и «сгенерировано» становится всё тоньше. Удачи в оттачивании этого полезного скилла — он точно пригодится.

Как определить, что фото сгенерировано нейросетью Midjourney по мелким деталям

Руки и пальцы — вечная ахиллесова пята

Что выдаёт текст на изображении?

Ваш личный ИИ-отдел маркетинга, который работает 24/7 📈

Глаза и зрачки

Фон и архитектурная логика

Стоит ли доверять текстурам?

Украшения и аксессуары

Симметрия, которой не бывает

Как проверить подозрительный снимок?

Тени и освещение

Неоднозначные детали на заднем плане

Эффект «сверхъестественной долины» в стилизации

Когда нейросеть ошибается с количеством

Читайте по теме

Добавить комментарий Отменить ответ

Руки и пальцы — вечная ахиллесова пята

Что выдаёт текст на изображении?

Ваш личный ИИ-отдел маркетинга, который работает 24/7 📈

Глаза и зрачки

Фон и архитектурная логика

Стоит ли доверять текстурам?

Украшения и аксессуары

Симметрия, которой не бывает

Как проверить подозрительный снимок?

Тени и освещение

Неоднозначные детали на заднем плане

Эффект «сверхъестественной долины» в стилизации

Когда нейросеть ошибается с количеством

Читайте по теме

Добавить комментарий Отменить ответ

Статьи по теме

Официальная ссылка на Midjourney: где найти бота и как начать работу

Универсальный бот ChatGPT и Midjourney: генерация текста и изображений в одном окне

Как работает связка ботов ChatGPT и Midjourney Nano в мессенджерах

Нейросети в коммерции: как применять Midjourney для создания рекламного дизайна