Решил разобраться с обновлением WAN до версии 2.2: установил, потестил, полазил по форумам. Ниже делюсь своим опытом — что это за модель, что она умеет и на что пока лучше не рассчитывать.
Что такое WAN 2.2 и чем она отличается от предыдущих версий
WAN 2.2 — это свежая версия модели для локальной генерации видео, которая продолжает развивать идеи WAN 2.1 и 1.5. Основные изменения:
- Чуть стабильнее лица и пропорции объектов
- Сцены стали лучше держать структуру кадра
- Менее заметное «плавание» объектов
Но важно понимать: это всё ещё не уровень Kling, Runway или Veo, но уже очень близко.
- Динамичные сцены с быстрыми движениями рвёт и ломает.
- Камера иногда «плывёт».
- Хорошие результаты получаются в основном на медленных или среднеподвижных кадрах.
WAN 2.2 — это скорее инструмент для экспериментов, тестов и фотореалистичных коротких шотов, чем готовый продакшен для сложной анимации. Если планировать постановку кадров с крупными планами и низкой динамикой, то можно ожидать вполне достойный результат.
Требования к железу
Модель тяжёлая, и без мощной видеокарты делать нечего.
Минимум для работы:
- Видеокарта 24 ГБ VRAM (RTX 3090, 4090, 5090)
- RAM от 32ГБ
- CPU с AVX2
- SSD с 30+ ГБ свободного места
На RTX 3090 WAN 2.2 запускается, но медленно. На 4090 и выше — работать комфортнее. Если используете 50‑ю серию, лучше ставить PyTorch Nightly с CUDA 12.8 — это ускоряет генерацию.
Промтинженеринг: как выжать максимум
WAN 2.2 стала чувствительнее к промтам, но не прощает хаоса в описаниях.
1. Формула хорошего промта
Я для себя вывел 4 блока:
- Главный объект — кто или что в кадре: a tired traveler with a large backpack
- Действие — что происходит: slowly walking along an empty train platform, mist swirling around his legs
- Окружение и свет — где и при каком освещении: dim lanterns flickering through the fog, cold blue morning light reflecting on wet rails
- Камера — как снимаем: low-angle cinematic shot, slight handheld movement, shallow depth of field, soft motion blur
2. Пример рабочего промта
A weary traveler with a heavy backpack slowly walks along a deserted train platform, thin mist curling around his boots. Dim lanterns flicker through the fog, and the cold blue morning light glistens on the wet rails. Shot from a low angle with subtle handheld movement, shallow depth of field, and soft cinematic motion blur.
- Пишите одним абзацем
- Избегайте «masterpiece, 8k» — WAN не реагирует на это
- Делайте промт 30–60 слов для точного контроля
3. Негативный промт
Нужен, чтобы убирать артефакты:
blurry, distorted face, low quality, extra limbs, disfigured, oversaturated
Добавляйте необходимые токены в негативный промт в зависимости от ситуации или типа анимации .
4. Особенности I2V (Image-to-Video)
- Стартовое изображение должно быть чистым и с правильной композицией (желательно главный объект должен быть в кадре крупным или средним планом)
- В промте описываем только движение, а не дублируем картинку. Указывать нужно только какой объект и какие действия выполняет.
- Мягкая динамика (панорама, плавный трекинг) работает лучше, чем резкие прыжки
Мой вывод
WAN 2.2 стала лучше предыдущих версий, но это всё ещё не конкурент гигантам.
- Сложные сцены и экшен пока даются тяжело
- Реалистичная динамика ограничена
- Подходит в основном для экспериментов и медленных шотов
Но если правильно писать промты и подбирать стартовые кадры, получить аккуратную анимацию уже реально.
Полезные ссылки для скачивания
- Рабочие процессы ComfyUI для генерации видео Wan2.2
- Официальный репозиторий ComfyUI
- ComfyUI Manager (для обновления и нод)
Примеры
На этих шотах видно что с динамичными движениями есть сложности. Пытался докрутить промт, сделал около 10 попыток, но результат не стал заметно лучше.
На шотах ниже видно, что с меньшей динамикой результат лучше.
Добавить комментарий