Один из самых популярных сервисов генерации картинок, Midjourney, недавно представил функцию видеогенерации. Я изучили возможности этой новой функции и сравнили её с мощной моделью Kling 2.1. Рассказываю простыми словами, что из этого получилось.
Что умеет Midjourney Video
Midjourney Video – это дополнение к уже полюбившемуся многим сервису генерации изображений Midjourney. Теперь вы можете не только создавать красивые картинки, но и превращать их в короткие видеоролики. Работает это просто: вы создаёте изображение и нажимаете кнопку «анимировать». Нейросеть автоматически добавит движение – например, персонаж начнёт двигаться, а фон – меняться. Кроме того можно загрузить собственную фотографию или любое другое изображение и анимировать его.
Качество и реалистичность
Картинка получается красивой и детализированной, даже при низком разрешении, но только до тех пор пока не решите развернуть видео на весь экран. Благодаря этой способности Midjourney – исключать лишние пиксели и оставлять только необходимые, каждый кадр видеоролика выглядит как профессионально обработанная фотография. Особенно хорошо Midjourney справляется со статичными сценами – например, пейзажами или портретами. Однако при быстрых движениях картинка становится менее реалистичной – появляются «подёргивания» и странные эффекты, которые портят впечатление.
В примерах ниже видно, что Kling 2.1, как и Midjourney, испытывает трудности с динамичными сценами: есть небольшие артефакты и не совсем естественные движения персонажа. Однако за счёт более высокого исходного разрешения (1080p против 480p у Midjourney) Kling выдаёт более качественный результат, который выглядит чётче и детализированнее даже без использования дополнительных апскейлеров.
Генерация в Midjourney
Генерация в Kling 2.1
На следующем примере видно, что Kling точнее сохраняет детали исходного изображения, такие как текстуры кожи, волосы и форма очков, делая итоговый результат более реалистичным и похожим на оригинал. Midjourney, хотя и создаёт в целом похожее изображение, сильно упрощает мелкие детали и делает лицо более размытым и «плоским». Таким образом, если важна максимальная точность и чёткость деталей, Kling является предпочтительным вариантом.

Длительность и формат
Один ролик в Midjourney длится 5 секунд, но его можно продлить до 21 секунды, постепенно добавляя новые части. Формат видео – MP4, без звука. Также можно сохранить ролик в виде GIF-анимации, что удобно для социальных сетей. В Kling лишь 2 варианта – 5 или 10 секунд.
Плюсы и минусы Midjourney Video
Плюсы:
- Очень прост в использовании.
- Высокая скорость генерации – результат появляется за минуты.
- Доступность и невысокая стоимость.
- 4 шота за 1 запрос.
Минусы:
- Низкое разрешение видео – всего 480p.
- Нет звука.
- Артефакты при быстром движении объектов.
Чем Kling 2.1 лучше и хуже Midjourney Video?
Если Midjourney – это простота и скорость, то Kling 2.1 – это профессиональный инструмент. Kling способен создавать реалистичные и детализированные видео высокого разрешения (1080p), где движения персонажей выглядят как живые. Он подходит для серьёзных задач, таких как рекламные ролики и видеоконтент для соцсетей.
Плюсы Kling 2.1 по сравнению с Midjourney:
- Гораздо более высокое качество изображения (HD и Full HD).
- Реалистичные движения и мимика персонажей.
- Отсутствие мерцания и артефактов между кадрами.
- Возможность точнее контролировать содержание ролика через текстовый запрос.
Минусы Kling 2.1:
- Высокая стоимость.
- Высокая ресурсоёмкость и более медленная генерация видео.
Для чего подходит Midjourney Video, а для чего – Kling?
Midjourney Video отлично подходит для быстрого создания небольших анимаций и визуальных эффектов для социальных сетей, блогов и личных проектов, где не обязателен точный результат и высокое разрешение. Это хороший выбор, если вы хотите быстро получить эффектное видео без сложных настроек.
Kling 2.1 лучше использовать там, где важны профессиональное качество и реалистичность – в рекламе, промо-материалах и более сложных видеороликах для бизнеса.
Как составлять промты: сравнение Midjourney и Kling 2.1
Промт-инжиниринг — умение правильно формулировать запросы для нейросетей — играет ключевую роль в качестве генерируемого контента. Однако подходы к составлению промтов для Midjourney и Kling заметно различаются.
В Midjourney распространено мнение, что чем больше деталей и тонкостей вы укажете в промте, тем лучше и точнее будет результат. Это действительно так: нейросеть способна великолепно обрабатывать сложные описания и использовать указанные детали для создания реалистичных сцен. При этом важно не путать детализацию с усложнением действий: если в промте будет указано слишком много разных движений и смен ракурсов, которые физически не уместятся в 5-секундное видео, нейросеть запутается, и итоговый результат может получиться хаотичным или неестественным. Идеальный подход к Midjourney — это длинный и детализированный промт, описывающий каждую значимую деталь сцены, но с минимальным набором движений и событий, чтобы сохранить ясность и управляемость результата.
У Kling 2.1 подход иной. Здесь чем более структурированный, детальный и чёткий промт вы напишете, тем выше будет точность конечного результата. Особенно важны точные описания действий персонажей, ракурса и движения камеры, освещения и эмоций, а также обязательное использование негативных промтов, которые чётко указывают, чего следует избегать (например, «без размытия», «без дрожания камеры», «без искажений лица»). Такой подход требует более профессионального подхода и глубокого понимания механики работы нейросети, но позволяет добиться значительно большей точности и контроля за процессом генерации.
Таким образом, Midjourney лучше всего реагирует на длинные промты с четким описанием деталей, но без попытки уместить слишком много событий в короткий ролик. В то время как Kling требует детализированных, продуманных и чётко структурированных запросов с обязательным указанием нежелательных элементов, а также Kling хорошо распознаёт описания настроений и способен передавать заданную атмосферу сцены. Модель допускает использование сложных художественных формулировок, например: «угрюмый дождь заливает унылую улицу, по которой скользят тени проезжающих машин, отбрасывая отблески фар в спокойных лужах».
PROMT:
The man walks slowly from left to right across the scene, filming himself in selfie mode while gradually bringing the phone closer to his face. He keeps steady, confident eye contact with the camera, fully focused on himself. Suddenly and without warning, a single giant yellow rubber duck with a bright red beak drops gently from above and lands in the center of the room behind him. It bounces slightly on impact with a soft, springy motion, then settles calmly without damaging anything around it. Its size fills most of the space, making the moment feel surreal and absurd. Despite the duck’s enormous presence, the man doesn’t react he continues walking, as if nothing unusual happened. Warm natural light illuminates the scene, casting soft shadows on the duck’s glossy surface. Dust particles float gently in the air. High realism, smooth camera motion, soft physical impact, absurd contrast in scale, playful surrealism with cinematic stillness.
Генерация в Midjourney
Генерация в Kling 2.1
На примерах выше видно, что обе нейросети почти успешно справились с задачей, заданной в промте: персонаж движется, а абсурдная сцена с гигантской уточкой воспроизведена понятно и наглядно. Однако в обоих случаях присутствуют недостатки, которые не позволяют назвать результат идеальным. Тем не менее, заметно, что Kling 2.1 обеспечивает более естественные и плавные движения, передавая динамику и реализм даже несмотря на то, что исходный референс не был достаточно реалистичным. Midjourney демонстрирует хорошее соответствие промту, но выглядит более статичным и менее натуральным в плане движений.
На примерах ниже отчётливо видно, как перегруженный деталями промт сбил с толку нейросеть Midjourney. В первом варианте нейросеть попыталась выполнить все указания, но из-за чрезмерной сложности описания в какой-то момент сцена вышла из-под контроля: неподвижный мужчина, который должен был остаться за кадром, оказался движущимся персонажем в кадре, что нарушило задуманный сценарий.
Во втором варианте, с более кратким и понятным промтом, Midjourney намного лучше справилась с поставленной задачей, чётко следуя описанию действий мужчины, хотя и здесь небольшие отклонения от задуманного присутствуют. Однако важно отметить, что Midjourney прекрасно понимает сложные и детализированные промты, но не всегда может полностью следовать им из-за ограничений в длительности сцены. Эту проблему можно решить, продлив видео, однако в нашем случае задача сделать короткий ролик без продлений, поэтому нам такой вариант не подходит. Таким образом, при генерациях в Midjourney стоит изначально избегать сложных сцен с большим количеством действий и движений, а продумывать кадры с минимальной динамикой и разнообразием событий.
1. Midjourney – Promt (перегруженный) :
Scene Detail: Spacious, pristine sunset beach, fine amber sand, low warm sun behind viewer, long crisp shadows, endless rows of identical white plastic loungers laid out in perfect grid lines. Calm sea glows orange on the horizon, faint mist for depth, occasional glittering sand grains in light. Subject Details: Single adult man, 35 yr, short dark hair, white T-shirt, mid-blue jeans, stands at front row lounger; places a single faded-blue flip-flop and a rolled striped towel (coral-teal-white) with deliberate precision; posture calm, movements almost ritual. Style Description: Hand-held but smoothly stabilized drone-to-dolly cinematic look, warm Kodachrome-like color grade, gentle contrast, shot on RED Komodo-X sensor with DJI Inspire 3 gimbal, golden-hour lens flare near frame edge, no digital grain. Keywords: 24 mm T2.8, ND-filter, warm amber palette, gentle haze, shallow depth fall-off. Camera Movement: Starts just behind man’s right shoulder at 1 m height, slow tilt-up and pivot left to reveal grid of loungers; then accelerates into a rising forward aerial tracking shot, climbing to ~10 m while pulling slightly left, maintaining the man in lower-right third until he exits frame, ending with wide overhead view of endless loungers. Scene Motion: Soft sea breeze lifts sparse sand grains; distant shoreline silhouettes shift subtly; low sun edge-flare flickers as camera tilts. Subject Motion: Man finishes straightening items, slowly straightens, turns head toward horizon, then remains motionless while camera departs.
2. Midjourney – Promt (детальный) :
The man carefully places a colorful towel and a single flip-flop onto a beach lounger, straightening the items with precise, almost ritualistic movements. As he finishes, he slowly straightens up and turns his head to gaze into the distance, his expression thoughtful. The camera begins behind his shoulder, then smoothly pivots to reveal a wide view of the beach rows upon rows of identical white loungers, each with one towel and one lonely flip-flop. The beach is nearly empty, with just a few distant silhouettes at the shoreline. As the man remains still, the camera launches into a sweeping aerial movement, flying swiftly over the beach in a dramatic tracking shot that emphasizes the surreal scale and repetition of the setup. The sun is low, casting long cinematic shadows, and a warm breeze lifts occasional grains of sand into the air, shimmering in the golden sunset light. The scene is quiet, strange, and humorously grand.
А вот пример, как справился с этим же (вторым) промтом Kling.
Итоговые сравнительные характеристики Midjourney Video и Kling 2.1
Качество визуала (детализация, стилизация)
- Midjourney Video: Очень высокая стилизация, часто «глянцевая» или художественная, с выразительными цветами
- Kling: Фотореализм, реалистичное освещение и текстуры, ближе к кинопроизводству
Детализация лица и предметов
- Midjourney Video: Выразительная, но может быть сильно стилизованной или упрощённой
- Kling: Более точная, приближена к реальным лицам и объектам, особенно в крупном плане
Разрешение и чёткость кадров
- Midjourney Video: Среднее (без встроенного апскейлинга), часто требует доработки
- Kling: Высокое, пригодно для использования без дополнительных улучшений
Длительность ролика
- Midjourney Video: 5 секунд с возможностью продления, но с каждым продлением страдает качество
- Kling: 5-10 секунд
Обработка движений
- Midjourney Video: Часто нестабильные, особенно при попытке задать сложную анимацию
- Kling: Более плавные и последовательные, хорошо справляется с умеренной динамикой
Работа с камерой (движения, смена ракурса)
- Midjourney Video: Камера редко движется корректно, сильные ограничения
- Kling: Камера может двигаться свободно, доступна полноценная кинематографичная съёмка
Контроль над результатом через промт
- Midjourney Video: Поддерживает длинные описания, но результат может быть непредсказуем
- Kling: Жесткие ограничения на структуру промта, но результат более стабилен и точен
Поддержка реалистичных сцен
- Midjourney Video: Часто уходит в сюрреализм
- Kling: Лучше справляется с реалистичными сюжетами
Скорость генерации
- Midjourney Video: Быстро
- Kling: Средняя
Применимость в продакшене
- Midjourney Video: Пока экспериментально, для коротких креативов
- Kling: Пригоден для рекламных и игровых роликов если нет жестких требований к корректности и идентичности с оригиналом, при условии правильной постановки и хороших промтов
Лицензия и права на использование
- Midjourney Video: Принадлежит коммерческой платформе Midjourney. Пользователи с активной подпиской могут использовать результаты в личных и коммерческих целях, но при этом авторские права на генерации юридически остаются под вопросом из-за использования данных из интернета. При создании контента для брендов или официальной рекламы возможны риски, особенно при генерации узнаваемых лиц или объектов.
- Kling: Разрабатывается китайской компанией Kuaishou. Публично не заявлено об ограничениях на коммерческое использование, но модель всё ещё находится в открытой бета-стадии, и условия могут измениться. Генерации выглядят фотореалистично, поэтому при использовании в рекламе важно избегать создания образов, похожих на реальных людей, если нет прав.
Стоит ли использовать Midjourney Video?
Если вам нужен простой, быстрый и доступный инструмент для создания небольших анимированных эффектов – да, однозначно стоит попробовать. Но если ваша задача – профессиональное видео высокого качества, то лучше обратить внимание на Kling 2.1.
Midjourney Video – это скорее яркая и красивая игрушка, полезная для соцсетей и творчества, а Kling 2.1 – серьёзный инструмент, почти готовый к использованию в профессиональной сфере.