Краткий обзор WAN 2.2

Решил разобраться с обновлением WAN до версии 2.2: установил, потестил, полазил по форумам. Ниже делюсь своим опытом — что это за модель, что она умеет и на что пока лучше не рассчитывать.

Что такое WAN 2.2 и чем она отличается от предыдущих версий

WAN 2.2 — это свежая версия модели для локальной генерации видео, которая продолжает развивать идеи WAN 2.1 и 1.5. Основные изменения:

Чуть стабильнее лица и пропорции объектов
Сцены стали лучше держать структуру кадра
Менее заметное «плавание» объектов

Но важно понимать: это всё ещё не уровень Kling, Runway или Veo, но уже очень близко.

Динамичные сцены с быстрыми движениями рвёт и ломает.
Камера иногда «плывёт».
Хорошие результаты получаются в основном на медленных или среднеподвижных кадрах.

WAN 2.2 — это скорее инструмент для экспериментов, тестов и фотореалистичных коротких шотов, чем готовый продакшен для сложной анимации. Если планировать постановку кадров с крупными планами и низкой динамикой, то можно ожидать вполне достойный результат.

Требования к железу

Модель тяжёлая, и без мощной видеокарты делать нечего.

Минимум для работы:

Видеокарта 24 ГБ VRAM (RTX 3090, 4090, 5090)
RAM от 32ГБ
CPU с AVX2
SSD с 30+ ГБ свободного места

На RTX 3090 WAN 2.2 запускается, но медленно. На 4090 и выше — работать комфортнее. Если используете 50‑ю серию, лучше ставить PyTorch Nightly с CUDA 12.8 — это ускоряет генерацию.

Промтинженеринг: как выжать максимум

WAN 2.2 стала чувствительнее к промтам, но не прощает хаоса в описаниях.

1. Формула хорошего промта

Я для себя вывел 4 блока:

Главный объект — кто или что в кадре: a tired traveler with a large backpack
Действие — что происходит: slowly walking along an empty train platform, mist swirling around his legs
Окружение и свет — где и при каком освещении: dim lanterns flickering through the fog, cold blue morning light reflecting on wet rails
Камера — как снимаем: low-angle cinematic shot, slight handheld movement, shallow depth of field, soft motion blur

2. Пример рабочего промта

A weary traveler with a heavy backpack slowly walks along a deserted train platform, thin mist curling around his boots. Dim lanterns flicker through the fog, and the cold blue morning light glistens on the wet rails. Shot from a low angle with subtle handheld movement, shallow depth of field, and soft cinematic motion blur.

Пишите одним абзацем
Избегайте «masterpiece, 8k» — WAN не реагирует на это
Делайте промт 30–60 слов для точного контроля

3. Негативный промт

Нужен, чтобы убирать артефакты:

blurry, distorted face, low quality, extra limbs, disfigured, oversaturated

Добавляйте необходимые токены в негативный промт в зависимости от ситуации или типа анимации .

4. Особенности I2V (Image-to-Video)

Стартовое изображение должно быть чистым и с правильной композицией (желательно главный объект должен быть в кадре крупным или средним планом)
В промте описываем только движение, а не дублируем картинку. Указывать нужно только какой объект и какие действия выполняет.
Мягкая динамика (панорама, плавный трекинг) работает лучше, чем резкие прыжки

Мой вывод

WAN 2.2 стала лучше предыдущих версий, но это всё ещё не конкурент гигантам.

Сложные сцены и экшен пока даются тяжело
Реалистичная динамика ограничена
Подходит в основном для экспериментов и медленных шотов

Но если правильно писать промты и подбирать стартовые кадры, получить аккуратную анимацию уже реально.

Полезные ссылки для скачивания

Рабочие процессы ComfyUI для генерации видео Wan2.2
Официальный репозиторий ComfyUI
ComfyUI Manager (для обновления и нод)

Примеры

На этих шотах видно что с динамичными движениями есть сложности. Пытался докрутить промт, сделал около 10 попыток, но результат не стал заметно лучше.

На шотах ниже видно, что с меньшей динамикой результат лучше.

Ai Father