Краткий обзор WAN 2.2

Решил разобраться с обновлением WAN до версии 2.2: установил, потестил, полазил по форумам. Ниже делюсь своим опытом — что это за модель, что она умеет и на что пока лучше не рассчитывать.


Что такое WAN 2.2 и чем она отличается от предыдущих версий

WAN 2.2 — это свежая версия модели для локальной генерации видео, которая продолжает развивать идеи WAN 2.1 и 1.5. Основные изменения:

  • Чуть стабильнее лица и пропорции объектов
  • Сцены стали лучше держать структуру кадра
  • Менее заметное «плавание» объектов

Но важно понимать: это всё ещё не уровень Kling, Runway или Veo, но уже очень близко.

  • Динамичные сцены с быстрыми движениями рвёт и ломает.
  • Камера иногда «плывёт».
  • Хорошие результаты получаются в основном на медленных или среднеподвижных кадрах.

WAN 2.2 — это скорее инструмент для экспериментов, тестов и фотореалистичных коротких шотов, чем готовый продакшен для сложной анимации. Если планировать постановку кадров с крупными планами и низкой динамикой, то можно ожидать вполне достойный результат.


Требования к железу

Модель тяжёлая, и без мощной видеокарты делать нечего.

Минимум для работы:

  • Видеокарта 24 ГБ VRAM (RTX 3090, 4090, 5090)
  • RAM от 32ГБ
  • CPU с AVX2
  • SSD с 30+ ГБ свободного места

На RTX 3090 WAN 2.2 запускается, но медленно. На 4090 и выше — работать комфортнее. Если используете 50‑ю серию, лучше ставить PyTorch Nightly с CUDA 12.8 — это ускоряет генерацию.


Промтинженеринг: как выжать максимум

WAN 2.2 стала чувствительнее к промтам, но не прощает хаоса в описаниях.

1. Формула хорошего промта

Я для себя вывел 4 блока:

  1. Главный объект — кто или что в кадре: a tired traveler with a large backpack
  2. Действие — что происходит: slowly walking along an empty train platform, mist swirling around his legs
  3. Окружение и свет — где и при каком освещении: dim lanterns flickering through the fog, cold blue morning light reflecting on wet rails
  4. Камера — как снимаем: low-angle cinematic shot, slight handheld movement, shallow depth of field, soft motion blur

2. Пример рабочего промта

A weary traveler with a heavy backpack slowly walks along a deserted train platform, thin mist curling around his boots. Dim lanterns flicker through the fog, and the cold blue morning light glistens on the wet rails. Shot from a low angle with subtle handheld movement, shallow depth of field, and soft cinematic motion blur.
  • Пишите одним абзацем
  • Избегайте «masterpiece, 8k» — WAN не реагирует на это
  • Делайте промт 30–60 слов для точного контроля

3. Негативный промт

Нужен, чтобы убирать артефакты:

blurry, distorted face, low quality, extra limbs, disfigured, oversaturated

Добавляйте необходимые токены в негативный промт в зависимости от ситуации или типа анимации .


4. Особенности I2V (Image-to-Video)

  1. Стартовое изображение должно быть чистым и с правильной композицией (желательно главный объект должен быть в кадре крупным или средним планом)
  2. В промте описываем только движение, а не дублируем картинку. Указывать нужно только какой объект и какие действия выполняет.
  3. Мягкая динамика (панорама, плавный трекинг) работает лучше, чем резкие прыжки

Мой вывод

WAN 2.2 стала лучше предыдущих версий, но это всё ещё не конкурент гигантам.

  • Сложные сцены и экшен пока даются тяжело
  • Реалистичная динамика ограничена
  • Подходит в основном для экспериментов и медленных шотов

Но если правильно писать промты и подбирать стартовые кадры, получить аккуратную анимацию уже реально.


Полезные ссылки для скачивания


Примеры

На этих шотах видно что с динамичными движениями есть сложности. Пытался докрутить промт, сделал около 10 попыток, но результат не стал заметно лучше.

На шотах ниже видно, что с меньшей динамикой результат лучше.


Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *