Gemini 2.5 Flash Image (Nano Banana) – возможности и prompt-инжиниринг

Gemini 2.5 Flash Image (кодовое имя Nano Banana) — новейшая мультимодальная модель Google для генерации и редактирования изображений. Она изначально спроектирована для работы и с текстом, и с изображениями в одном запросе, совмещая понимание мира (знания Gemini LLM) с мощными генеративными возможностями. По сути, это «умный фотошоп» на ИИ: модель создаёт картинки по описанию, вносит правки в фото по текстовым командам, комбинирует несколько изображений и умеет логически рассуждать о содержимом кадра.

Ключевые возможности
— Генерация изображений по тексту.
— Точное редактирование фото по текстовому запросу.
— Комбинирование и слияние нескольких изображений.
— Анализ и «понимание» сцены для более осмысленных результатов.

Основные возможности модели

  • Генерация изображения по текстовому описанию (Text-to-Image) – модель создает новые изображения с нуля на основе текстового запроса, будь то простой запрос или детально расписанная сцена. Качество генерируемых картинок высокое, поддерживаются разные стили – от фотореализма до рисунков или логотипов.
  • Редактирование изображения по тексту (Image + Text-to-Image) – можно загрузить существующую фотографию и дать текстовую команду, чтобы модель добавила, удалила или изменила на ней определенные элементы, либо изменила стиль изображения или цветовую тональность. При этом модель анализирует оригинал и старается внести правку естественно, сохраняя общий вид снимка.
  • Композиция нескольких изображений (Multi-Image to Image) – модель способна принимать несколько изображений и объединять их в одном результате. Это позволяет, например, вставить объект с одной фотографии на фон другой, заменить фон или перенести стиль одного изображения на другое. По сути, Gemini 2.5 умеет как слияние изображений, так и стилевой трансфер в рамках одного запроса.
  • Итеративное улучшение через диалог – модель поддерживает многоходовое взаимодействие: вы можете поэтапно дорабатывать изображение, ведя разговор с моделью. Сгенерировав начальное изображение, можно дать следующую команду: уточнить детали, слегка изменить что-то (освещение, выражение лица, фон и т.д.), и модель внесет правки, продолжая от предыдущего результата. Так пошагово достигается идеальный итог.
  • Высокоточное отображение текста на изображении – Gemini 2.5 Flash Image умеет генерировать картинки, содержащие читаемый, хорошо вписанный текст (например, логотипы, плакаты, диаграммы с подписями). Это сложная задача для генеративных моделей, но здесь уделено внимание четкости шрифтов и размещению надписей.

Дополнительные возможности Gemini 2.5 Flash Image

Понимание контекста («знание мира»). Модель опирается на базу знаний языковой модели, лучше улавливает смысл сложных запросов и дополняет изображение логично. Понимает наброски и схемы от руки: по простому скетчу способна сгенерировать корректную сцену, соблюдая реальные факты и описания (в т.ч. исторические и научные).

Стабильность облика персонажей. В серии кадров сохраняет внешний вид героя или объекта, чтобы он оставался узнаваемым в разных сценах. Это критично для сторителлинга, бренд-персонажей и серийных иллюстраций.

Шаблоны и вариативность. Поддерживает визуальные шаблоны: задайте единый дизайн — получите множество вариаций с неизменным стилем и компоновкой. Примеры: карточки недвижимости, бейджи сотрудников, линейки упаковки/мокапов, где меняется только продукт.

Скорость и фотореализм. Работает быстро (Flash — не зря в названии) и выдаёт заметно более детализированные, фотореалистичные результаты по сравнению с предыдущими версиями.

Ответственная маркировка. Все сгенерированные/отредактированные изображения помечаются цифровым водяным знаком SynthID, чтобы их можно было идентифицировать как созданные ИИ.

Подробнее об операциях, которые можно выполнять

Модель рассчитана как на генерацию новых изображений, так и на точечное редактирование уже имеющихся фотографий. Перечислим, какие конкретно манипуляции с фото доступны с помощью Gemini 2.5 Flash Image:

  • Добавление объектов на фото. Можно попросить модель добавить что-то новое в сцену – например, добавить на фотографию человека или предмет. Она вставит объект, подходящий по перспективе и освещению, как будто он там и был. Например, “Добавь на фото кошку сидящую на коленях у девушки” – и кошка появится на коленях, гармонируя с окружением.

  • Удаление нежелательных объектов или людей. С помощью текста можно удалить с фотографии лишние детали. Модель аккуратно заменит фон на месте удаленного так, чтобы не осталось следов. К примеру, команда “Сними с девушки капюшон и удали неоновую надпись на фоне” – и на новом фото будет все согласно запросу.

  • Изменение отдельных деталей. Gemini 2.5 умеет менять цвет или текстуру объектов, изменять позу человека, мимику лица, освещение сцены и т.п. по описанию. Например, можно попросить изменить цвет платья с красного на синий, или повернуть голову человека вправо, или сделать фон более размытым (эффект боке) – модель внесет эти правки, стараясь сохранить реализм. Наппример: “Измени цвет одежды на синий, материал одежды светоотражающий винил, поверни взгляд девушки вправо”.

  • Ретушь и исправления. Модель способна выполнять классические задачи редактирования: убрать пятно с одежды, сгладить морщины, устранить блик или шум, улучшить резкость, раскрасить черно-белое фото и т.д. – по обычному описанию на естественном языке. Например: “Убери красные глаза на фото” или “Раскрась эту черно-белую фотографию в естественные цвета” – такие запросы модель понимает.

  • Перенос стиля изображения. Вы можете показать модели какое-то изображение в определенном стиле (например, картину импрессиониста или кадр из аниме) и попросить перерисовать вашу фотографию в этом же стиле. Модель перенесет художественные черты – цвета, мазки, штрихи – сохранив исходную композицию. Например: “Сделай из моей фотографии пейзажа картину в стиле Ван Гога” – и снимок превратится в “звездную ночь” с характерными завихрениями краски.

  • Композиция: замена фона или комбинация изображений. Gemini 2.5 умеет встраивать одно изображение в другое. Можно, к примеру, вырезать объект с одного фото и поместить его на другой фон: “Помести девушку из первой картинки на фон из второй картинки”. Модель объединит их, скорректировав освещение и тени для реалистичности. Это полезно для коллажей, рекламных изображений (например, вставить товар в нужную обстановку) и т.д.

Или так: “Надень на эту женщину из второго фото шубу из первого фото”


  • Расширение изображения (Outpainting). Модель способна «дорисовывать» продолжение снимка за границами исходного кадра. Если у вас есть фотография, можно попросить расширить её фон или добавить окружение вокруг. Например: “Расширь фотографию вправо, добавив продолжение стены и интерьера” – модель сгенерирует дополнительное содержимое, плавно продолжая оригинал.
    *Примечание: термин outpainting означает генерацию продолжения за краями изображения. Подобная функция уже реализована в ряде моделей (DALL-E 2, Stable Diffusion и др.), и Gemini 2.5 Flash Image также умеет понимать изображение и достраивать реалистичный контекст вокруг него.

  • Локальное редактирование / Инпейтинг (Inpainting). Это обратная задача – когда нужно изменить или заменить что-то внутри самого изображения, не затрагивая остальное. Gemini 2.5 превосходно справляется с таким точечным редактированием областей фото, что традиционно было сложной задачей для диффузионных моделей. Вы просто указываете, что и на что заменить, и модель сделает правку, оставив все остальное без изменений. Пример: “Замени кожаное кресло на геймерское кресло красного цвета” – модель перестроит только диван, сохранив комнату и обстановку прежними (возможны незначительные изменения, в зависимости от запроса. Если при замене объекта, из-за ракурса или габаритов объекта, потребуется расширить края изображения, то скорее всего это произойдет). Эта способность качественного инпейтинга выделяет Nano Banana среди предшественников.

Кроме того, Gemini 2.5 можно использовать и для генерации серии изображений с единым сюжетом или объектом. Например, по одной фотографии объекта модель может сгенерировать целый каталог изображений этого товара в разных условиях: на разных фонах, с разным освещением, но с сохранением объекта. Разработчики особо отмечают, что такая генерация консистентных вариаций – одно из перспективных коммерческих применений.


Особенности prompt-инжиниринга

Чтобы получить наилучшие результаты, важно правильно сформулировать текстовый запрос — промпт. Gemini 2.5 Flash Image хорошо понимает язык, поэтому ей полезны описательные, контекстуальные подсказки. Ниже — ключевые рекомендации.

Пишите связно, а не списком тегов

Вместо набора разрозненных слов модель лучше реагирует на цельное описательное предложение.
Пример: вместо «cat, hat, living room, sunlight» — «Рыжий кот сидит на полу солнечной гостиной, через окно льются мягкие лучи утреннего солнца. На коте — забавный синий колпак волшебника, связанный крючком». Такой нарратив даёт более цельное и фотореалистичное изображение.

Будьте конкретны и детальны

Чем точнее вы опишете желаемую сцену, тем предсказуемее результат. Уточняйте внешность и позы, фон, стиль, палитру, освещение, фокус/глубину резкости и т.д.
Пример: вместо «рыцарь в доспехах» — «Эльфийский рыцарь в богато украшенных латных доспехах с выгравированными серебряными узорами, высоким воротником и наплечниками в форме крыльев сокола».

Задавайте контекст и цель

Объясните, для чего создаётся изображение и какого эффекта вы ждёте.
Пример: «Создай логотип для элитного минималистичного бренда косметики» — лучше, чем просто «Создай логотип».

Используйте язык фотографов и художников

Профессиональные термины дают точный контроль над композицией и светом: «снято на 85-мм объектив», «широкоугольный кадр с низкой точки», «мягкий рассеянный свет золотого часа», «нарисовано гуашью, стиль импрессионизма» и т.п.

Запреты формулируйте позитивно

Вместо «без машин на улице» опишите желаемое состояние: «пустынная улица без единого автомобиля». Модель лучше понимает, что должно быть в кадре, чем прямые «не делай».

Учитывайте формат и пропорции

При редактировании существующего изображения по умолчанию сохраняется его соотношение сторон. Для новой генерации задавайте формат явно («квадрат», «вертикальный портретный кадр»). Если модель упорно выдаёт неверные пропорции, прикрепите референс с нужным соотношением сторон — она подстроится. В запросе можно уточнить: «не меняя соотношения сторон оригинала». Если несколько референсов, то чаще сохраняется соотношение сторон последнего референсного изображения.

Работайте итеративно и в диалоге

Сложные сцены редко идеальны с первого раза. Уточняйте: «Отлично, но сделай освещение теплее и добавь лёгкий туман на заднем плане». Модель учтёт предыдущий результат и точечно внесёт правки, например: «Оставь всё как есть, только сделай выражение лица более серьёзным». Если после многих правок образ «уплыл» (особенно черты лица), начните новый запрос с нуля, заново описав желаемый итог.

Учитывайте языковые нюансы

Модель лучше справляется с наиболее сложными элементами (например, читаемый встроенный текст) при запросах на английском. Если нужна конкретная надпись, надёжнее формулировать по-английски: with sign that reads “Open Cafe”.

Помните об ограничениях

Gemini 2.5 Flash Image очень мощная, но не всесильна: сложные запросы с множеством нюансов могут потребовать нескольких попыток, а длинные надписи/мелкий шрифт и абсолютная неизменность едва заметных деталей персонажа при множественных правках иногда дают артефакты. Эти области улучшаются, но сейчас лучше закладывать один-два итерационных шага на доводку.

Итог: описывайте сцену связно и конкретно, задавайте контекст, используйте профессиональные термины, фиксируйте формат и добивайтесь результата через короткие итерации. Это даёт стабильный, контролируемый результат.


Примеры шаблонных промптов для разных задач

Ниже — шаблоны и примеры запросов для основных операций с изображениями, которые поддерживает Gemini 2.5 Flash Image. Используйте их как основу, подставляя свои детали.

Генерация нового изображения с нуля

1) Фотореалистичная сцена / фотография

Шаблон:
«Фотореалистичный [тип кадра] [основного объекта/субъекта] [в действии/с нужным выражением], на фоне [описание окружения]. Сцена освещена [характеристика освещения], создавая [настроение] атмосферу. Снято на [описание камеры/объектива], подчёркивая [ключевые текстуры/детали]. Формат — [необходимое соотношение сторон].»

Пример промпта:
«Фотореалистичный крупный портрет пожилого японского гончара с глубокими морщинами и тёплой мудрой улыбкой. Он внимательно рассматривает только что покрытую глазурью чайную чашу. Действие происходит в его деревенской мастерской, залитой мягким светом заходящего солнца, который льётся через окно и подчёркивает фактуру глины. Снято на объектив 85 мм с размытием фона (боке). Настроение сцены — спокойствие и мастерство. Вертикальный портрет.»

2) Стилизованная иллюстрация / наклейка

Шаблон:
«[Стиль]-стильная иллюстрация/наклейка, изображающая [субъект] с [ключевые черты/атрибуты] и в [палитра цветов]. Дизайн выполнен в манере [описание линий/штриховки] с [тип теней/освещения]. Фон белый (или прозрачный — указать явно).»

Пример промпта:
«Kawaii-стикер: счастливый рыжий панда в маленькой бамбуковой шляпе, жующий зелёный лист бамбука. Стиль — милый мультяшный, с жирными чёткими контурами и простой цел-шейдинг-раскраской. Палитра яркая и весёлая. Фон обязателен белый.»

3) Изображение с текстом (логотип, постер)

Шаблон:
«Создай [тип изображения — логотип/афишу/диаграмму] для [бренд/концепт] с текстом “[точный текст]” шрифтом [описание стиля шрифта]. Дизайн в [описание стиля дизайна], цветовая схема — [цвета].»

Пример промпта:
«Создай современный минималистичный логотип для кофейни под названием “КофеОК”. Текст должен быть выполнен чистым жирным шрифтом без засечек. В дизайн добавь простой стилизованный значок кофейного зерна, встроенный в надпись. Цветовая схема — чёрно-белая.»
Примечание: читаемый встроенный текст надёжнее получается на латинице.

4) Предметная фотография / мокап товара

Шаблон:
«Высококачественная студийная фотография [описание продукта] на [описание фона/поверхности]. Освещение: [схема света, например “трёхточечный мягкий свет”] для [цель освещения — устранения теней/подчёркивания фактуры]. Ракурс камеры — [тип ракурса, например “слегка сверху под 45°”], чтобы показать [важная деталь]. Ультрареалистично, в резком фокусе [что именно]. [Соотношение сторон].»

Пример промпта:
«Студийная фотография минималистичной керамической кофейной кружки матового чёрного цвета, стоящей на гладкой бетонной поверхности. Освещение — трёхточечный софтбокс с мягкими рассеянными бликами без резких теней. Ракурс — слегка приподнятый на 45°, чтобы показать чистые линии кружки. Максимально реалистично, в резком фокусе — струйки пара от горячего кофе. Кадр квадратный.»

5) Минималистичный дизайн с негативным пространством

Шаблон:
«Минималистичная композиция: единичный [объект] расположен в [часть кадра, напр. “в нижнем правом углу”]. Фон — обширное пустое пространство [цвет/материал], создающее много негативного пространства. Мягкий, ненавязчивый свет. [Формат изображения].»

Пример промпта:
«Минималистичная композиция: одинокий красный клёновый лист лежит в нижнем правом углу кадра. Фон — обширное пустое полотнище грязно-белого цвета, создающее много пространства для текста. Мягкое рассеянное освещение сверху слева. Кадр квадратный.»

6) Комикс-панель / раскадровка

Шаблон:
«Комикс-кадр в стиле [указать художественный стиль, напр. “нуар-комикс”]. На переднем плане [описание персонажа и действие]. Задний план: [обстановка]. В кадре есть [диалоговое облако/титр] с текстом “[реплика]”. Освещение создаёт [атмосферу]. [Формат кадра].»

Пример промпта:
«Кадр комикса в стиле супергеройского боевика 90-х. На переднем плане — герой в маске, стоящий на крыше небоскрёба под проливным дождём; его плащ развивается на ветру. На заднем плане — мрачный силуэт города с неоновыми огнями. В углу панели — текстовое облако: “Мне пора”. Освещение — драматическое, снизу вверх. Кадр широкоформатный, кинематографичный.»


Редактирование существующей фотографии (примеры промптов)

1) Добавление или удаление объекта

Шаблон:
«Используя предоставленное изображение [кратко описать исходник], [добавь/удали/измени] [что именно] в сцене. Убедись, что изменение выглядит [правдоподобно/в том же стиле и освещении].»

Пример (добавление):
«Используя предоставленное фото девушки в нанокостюме, добавь ей на голову маленький вязаный колпак волшебника. Сделай так, чтобы он выглядел реалистично и соответствовал освещению снимка.»

Пример (удаление):
«На приложенной фотографии пляжа удали, пожалуйста, фигуру постороннего человека слева. Заполни фон на его месте песком и волнами так, чтобы вмешательство было незаметно.»


2) Локальное изменение (точечный инпейтинг)

Шаблон:
«В предоставленном изображении измени только [конкретный элемент/область] на [желаемое новое]. Оставь всё остальное без изменений, сохранив исходный стиль, освещение и композицию.»

Пример:
«Используя данное фото гостиной, замени только синий угловой диван на винтажный коричневый диван Честерфилд. Остальной интерьер (подушки, ковёр, полки и освещение) оставь совершенно таким же, ничего больше не меняй.»

3) Перенос стиля на фото

Шаблон:
«Преобразуй предоставленную фотографию [описание сюжета] в художественном стиле [имя художника/название стиля]. Сохрани композицию оригинала, но выполни всё в манере [характерные черты стиля: “мазки кисти”, “пастельные тона”, “комиксная штриховка” и т.д.].»

Пример:
«Преобразуй приложенную фотографию где девушка в нанокостюме стоит на фоне города в художественном стиле “Звёздной ночи” Ван Гога. Сохрани исходную композицию перил и японских ворот, но перерисуй всё вихревыми мазками импасто и сделай палитру из глубоких синих и ярких жёлтых тонов.»

4) Комбинирование нескольких изображений

Шаблон:
«Создай новый снимок, скомбинировав элементы из предоставленных изображений. Возьми [объект/элемент] из первого изображения и помести его [куда/на что] во втором изображении. Итоговая сцена — [описание], при этом свет и стиль сведены воедино.»

Пример:
«Скомбинируй данные изображения для рекламного коллажа: возьми красное спортивное купе с первого изображения и поставь его на дорогу второго изображения (пейзаж горной долины). Итог — реалистичная сцена, где машина едет по горной дороге на фоне озера и лесистых склонов; освещение и цветовая тональность совпадают, будто это одно фото.»
Подсказка: если нужно комбинировать больше двух изображений, просто приложите все входы — модель умеет учитывать несколько источников сразу.


Эти шаблоны покрывают основные сценарии Nano Banana: от полной синтез-генерации в любом стиле до аккуратного точечного редактирования. Чем точнее и контекстнее вы описываете сцену, тем стабильнее и фотореалистичнее результат. Экспериментируйте и уточняйте запросы короткими итерациями — так вы быстро выйдете на нужное качество.


Бонус

Промт для создания превью этой статьи:
Сгенерируй новое изображение на основе приложенного. Девушка в синем костюме должна смотреть в камеру, в руках она держит большой банан и подносит его ближе к камере, как бы хвастаясь зрителю. В верхней левой четверти надпись крупным белым шрифтом “NANO-BANANA”, чуть ниже более мелким шрифтом “Gemini 2.5 Flash Image”, добавь легкий желтый волшебный туман на переднем и заднем плане.


Где и как пользоваться Gemini 2.5 Flash Image (Nano Banana)

Где запускать

  • Google AI Studio (в браузере) — быстрые тесты, i2i/t2i, экспорт кода. Откройте модель gemini-2.5-flash-image-preview и работайте прямо в UI.
  • Gemini API — программный доступ (HTTP/SDK). Здесь же описаны форматы запросов для генерации/редактирования изображений. Google AI for Developers
  • Vertex AI (Google Cloud) — тот же движок для продакшена/энтерпрайза: квоты, региональные эндпойнты, SLA/биллинг в GCP. Google Cloud+1

Официальные источники

Работает и в других инструментах (через API)

  • Платформы-партнёры и хостинги: OpenRouter и fal.ai (объявлено Google), Replicate уже предлагает модель с теми же ценами за вывод.
  • Фреймворки/SDK: LangChain и Vercel AI SDK имеют готовых провайдеров Gemini — можно подключить модель в существующие пайплайны.
  • Интеграции без кода: Zapier через Google AI Studio.

Стоимость (кратко)

  • Вывод изображений через Gemini API: $30 за 1 млн output tokens; изображение до 1024×1024 ≈ 1290 токенов ≈ $0.039 за картинку.
  • Понимание изображений (input): биллинг по токенам; крупные картинки режутся на тайлы 768×768, каждый тайл считается как ≈258 токенов.

Примечание о маркировке: все изображения, созданные/отредактированные моделью, встраивают невидимый водяной знак SynthID (а в потребительских приложениях Google ещё и видимый), — это часть политики прозрачности.