Цех видео
Text-to-video — короткие клипы и как из них собрать минуту
Цели урока
К концу этого урока вы:
- Поймёте, почему клипы 5–8 секунд — это конструктивная особенность станка, а не ограничение, которое надо ждать исправить.
- Узнаете, какие видеостанки живы сейчас: Veo 3.1, Kling, Hailuo, Pika, Runway, Luma — чем различаются, сколько стоят.
- Увидите живой пример «станок сняли с производства»: Sora закрыта 26.04.2026 — цех остался, поставили другой станок.
- Научитесь собирать длинное из коротких звеньев — мост к сборочному цеху (Урок 7).
- Разберёте ОТК видео: морфинг, артефакты, уплывающие детали — как замечать и что с этим делать.

Замри на секунду. Сейчас будет интересно.
Цех видео
Представьте, что вам привезли швейную машину — мощную, профессиональную, «лучшую в мире». Только строчит она кусочками по восемь сантиметров, а потом останавливается. Хотите платье? Сшейте сами из двенадцати таких кусочков. Это не поломка. Это устройство станка.
Именно так работает цех видео в 2026 году. Нейросеть выдаёт клип длиной пять-восемь секунд — идеально резкий, гладко движущийся, без единого артефакта в одном кадре. Попросить «сделай мне ролик на минуту» пока нет смысла: он либо откажется, либо сделает нечто склеенное наспех, где главный герой к середине превращается в другого человека. Восемь секунд — это свойство станка, а не его недостаток. Из этих коротких звеньев собирается лента.
Хорошая новость: станков в цехе сейчас несколько, и каждый ходит. Плохая: один из самых разрекламированных — уже нет. Именно с этого парадокса и начнём.
Что вы возьмёте из этого урока
- Поймёте, почему клипы 5–8 секунд — это конструктивная особенность станка, а не ограничение, которое надо ждать исправить.
- Узнаете, какие видеостанки живы сейчас: Veo 3.1, Kling, Hailuo, Pika, Runway, Luma — чем различаются, сколько стоят.
- Увидите живой пример «станок сняли с производства»: Sora закрыта 26.04.2026 — цех остался, поставили другой станок.
- Научитесь собирать длинное из коротких звеньев — мост к сборочному цеху (Урок 7).
- Разберёте ОТК видео: морфинг, артефакты, уплывающие детали — как замечать и что с этим делать.
Часть 1. Видео — это движущийся кадр
В Уроке 3 вы научились просить кадр. Кадр — это замороженный момент: человек стоит, свет падает, фон чёткий. Всё неподвижно. Видео — это тот же кадр, только запущенный во времени. Камера немного движется, листья чуть колышутся, человек поворачивает голову. Разница — в тысячах кадров, из которых сшита секунда.
Из этого следует практически важная вещь: всё, что вы уже умеете про кадр — угол съёмки, свет, композицию, «крупный план руки с чашкой», — переносится в видеоцех один в один. Промпт для видеостанка строится точно так же, как вы делали в предыдущем цехе: объект + что происходит + обстановка + движение камеры. Разница только одна: теперь к описанию кадра добавляется описание движения.
Практика быстро подсказывает ответ: движение камеры — самый управляемый параметр. «Медленно наезжает на лицо», «медленный облёт сверху», «камера неподвижна, рука тянется к стакану». Объект тоже может двигаться, но объяснить нейросети, как именно — сложнее. Зато движение камеры она понимает хорошо: этого в обучающих данных было много.
Часть 2. Почему 5–8 секунд — это свойство станка
Нейросеть генерирует видео покадрово и удерживает в памяти согласованность всего, что происходит: где стоит герой, как падает свет, какая там стена за спиной. Чем длиннее клип, тем больше согласованности надо держать — и тем дороже это обходится вычислительно. На восьми секундах станок держит уровень качества. На сорока — начинает «забывать»: герой меняет рубашку, стена меняет цвет, рука вырастает из другого места.
Google Veo 3.1 генерирует клипы до 8 секунд со звуком — в 1080p и 4K [1]. Hailuo (MiniMax) выдаёт 6 секунд [3]. Pika — 5 секунд [4]. Не потому что разработчики поленились: именно в этом диапазоне современные архитектуры удерживают согласованность визуально приемлемо.
Это напоминает, как в Уроке 1 мы говорили: «клипы короткие — это не баг, это свойство станка». Там это был принцип. Здесь — его причина. Понимая её, вы перестаёте злиться на ограничение и начинаете работать с ним: делаете много коротких, отборных звеньев, а не одно длинное среднее.
Практическое следствие: для ролика на 60 секунд планируйте 8–12 отдельных генераций. Каждый клип — отдельный промпт, отдельная сцена в раскадровке. Именно поэтому раскадровка из Урока 2 — не просто текст, а буквальный список съёмочных кадров для цеха видео.
Часть 3. Живые станки: обзор на сегодня
Рынок видеогенераторов за 2025–2026 год переколбасило: одни выросли из игрушек в рабочие инструменты, другие исчезли. Ниже — снапшот на 2026-05-31. Цены и лимиты меняются ежемесячно — всегда проверяйте на сайте перед оплатой.
| Станок | Длина клипа | Разрешение / звук | Бесплатно | Платно ($/мес, прибл.) |
|---|---|---|---|---|
| Veo 3.1 (Google) | до 8 сек | 1080p / 4K, звук ✅ | через Gemini app | в подписке Gemini/Flow/Vertex |
| Kling 3.0 | по тарифу | — | ограниченные кредиты | Standard $6.99 · Pro $25.99 |
| Hailuo (MiniMax) | 6 сек | 768p | кредиты новичкам | Basic $4.99 · Std $9.99 · Pro $19.99 |
| Pika | 5 сек | — | Basic | Standard $28 · Pro $76 |
| Runway | — | — | 125 кредитов | Standard $12 · Pro $28 |
| Luma (Dream Machine) | — | — | ограниченно | Plus $30 · Pro $90 · Ultra $300 |
| Kandinsky 5.0 (Сбер, RU) | до 10 сек | HD | через GigaChat бесплатно | в пакетах Сбера |
Источники: официальные сайты инструментов, снапшот 2026-05-31 [1][2][3][4][5].
Несколько практических наблюдений. Veo 3.1 сейчас топовый по качеству и единственный со встроенным звуком — это принципиально для цеха звука, куда мы придём в Уроке 5. Kling и Hailuo — дешёвые рабочие лошадки для быстрой нарезки черновиков. Runway — универсал с достаточным free-tier для теста. Kandinsky работает без VPN из России и принимает рублёвые карты.
Как именно просить хороший клип? Всё то же, что вы освоили в цехе картинок: объект, свет, фон, угол камеры — плюс движение. Короткое описание действия лучше длинного: «рука медленно поднимает чашку, лёгкий пар над краем, кухонный стол, естественный свет, камера статична» работает лучше, чем «утро, уют, кофе, жизнь прекрасна».
Часть 4. Станок сняли с производства — и это нормально
26 апреля 2026 года OpenAI закрыл Sora — веб-приложение и сайт [6]. API продержится до 24 сентября 2026, потом тоже уйдёт. Ещё раньше, 12 мая 2026, исчезли DALL·E 2 и DALL·E 3 — заменены GPT Image 2 прямо внутри ChatGPT.
Реакция на это в интернете разделилась на два лагеря. Одни писали: «Всё пропало, учил полгода — выкинул». Другие: «Ну и что, пересел на Veo, те же восемь секунд». Второй лагерь — это люди, которые учились конвейеру, а не конкретному брендовому станку.
Sora в этом курсе упоминается ровно один раз — здесь — как живой пример принципа из Урока 1: «Станок сняли с производства? Спокойно ставите другой — цех-то остался». Цех видео существует независимо от того, работает ли Sora, Veo или любой инструмент 2027 года, который ещё не придумали.
Часть 5. Как собрать длинное из коротких звеньев
Ролик на 60 секунд из восьмисекундных клипов — это восемь звеньев, склеенных в ленту. В сборочном цехе (Урок 7) мы разберём монтажные инструменты вплотную. Здесь — только принцип стыковки, потому что его нужно закладывать при генерации, а не потом.
Главная проблема при склейке — стык. Если один клип заканчивается на крупном плане лица, а следующий начинается с того же крупного плана чуть под другим углом — будет склейка «в прыжок», которую зритель замечает. Это не критично, но режет восприятие. Чтобы стыки не резали, при генерации планируйте переходы: клип А заканчивается движением «камера отъезжает», клип Б начинается с общего плана, потом входит в крупный.
Один клип = одна сцена из раскадровки
Раскадровка из Урока 2 уже разделила ролик на сцены. Каждая сцена — это один промпт для видеостанка. Порядок генерации не важен; важен порядок монтажа.
Опорные детали держите одинаковыми
Если в ролике одна и та же комната, прописывайте её в каждом промпте: «белые стены, деревянный стол слева». Иначе в клипе 3 появится синяя стена. Станок не помнит предыдущие клипы.
Планируйте переходы при генерации
Последнее движение предыдущего клипа + первое движение следующего = плавный стык. «Камера отъезжает» в конце А + «общий план комнаты» в начале Б — монтируется незаметно.
Генерируйте с запасом
На каждую сцену делайте 2–3 варианта. Один пойдёт в монтаж, остальные — в запас или в корзину. Это нормальная работа с материалом, а не трата времени.
Подробнее о монтаже, субтитрах и связке клипов в одну линию — в Уроке 7 (сборочный цех). Здесь главное: сборку видео планируют в цехе идей, исполняют в цехе видео, и склеивают в сборочном цехе. Три разных цеха, три разных операции.
Часть 6. ОТК видео: морфинг, артефакты, уплывающие детали
Видео труднее проверять, чем картинку: там двигается всё. ОТК видео — это смотреть в паузу и смотреть в движении. Три главных дефекта, которые чаще всего пропускают новички:
морфинг
Лицо плавно перетекает в другое лицо посреди клипа. Или рука превращается в три руки. Самый частый дефект на длинных клипах.
артефакты
Смазанные участки, геометрические искажения, «пикселизация» на движущихся объектах. Хорошо видны, если воспроизвести на паузе в середине клипа.
уплывающие детали
Текст на вывеске меняется от кадра к кадру, логотип исчезает и появляется, надпись на кружке перемешивается. Текст в видео — слабейшее место любого генератора.
чистый клип
Все детали стабильны от начала до конца, движение плавное, нет смазанных краёв, текст (если есть) не дёргается. Такой идёт в монтаж.
Рабочий протокол ОТК: (1) посмотрите клип целиком на скорости; (2) остановитесь в середине — проверьте детали; (3) сравните начало и конец: тот же герой, та же одежда, тот же фон. Если всё совпадает — клип проходит. Если нет — перегенерируйте с более коротким промптом движения или возьмите другой вариант из запаса.
Текст в видео — отдельная история: генераторы плохо держат буквы в движении. Если в ролике нужны слова — надписи, цифры, названия — их добавляют в сборочном цехе наложением поверх видео, а не просят у генератора. Иначе получите красивый клип с бессмысленным буквенным супом.
Резюме
Видео = кадр + движение
Всё, что освоили в цехе картинок, работает здесь. Добавляется одно: описание движения камеры или объекта.
5–8 секунд — не ограничение, а свойство
В этом диапазоне станки держат согласованность. Длинное собирается из коротких: один клип = одна сцена из раскадровки.
Живые станки: Veo, Kling, Hailuo, Pika, Runway, Luma
Каждый умеет разное, стоит по-разному. Принцип работы — один. Сора закрыта: цех остался, поставили другие станки.
ОТК видео: три дефекта — морфинг, артефакты, уплывающие детали
Смотрите в движении и на паузе. Генерируйте с запасом: 2–3 варианта на сцену. Текст в видео не просите — накладывайте в монтаже.
Что дальше, в Уроке 5 — «Цех звука»: картинки и клипы у вас уже есть. Теперь — звуковая дорожка. Голос и музыка — это половина впечатления от ролика. Разберём ElevenLabs (озвучка) и Suno (музыка), узнаем, почему клонировать чужой голос нельзя, и соберём звук в правильном порядке: текст → голос → музыка → сведение.
Источники / Sources
- docs Google DeepMind. «Veo» — видеомодель: клипы до 8 секунд, 1080p/4K, со звуком; доступна через Gemini app, Flow и Vertex AI.
- docs Kling AI. Membership plans — Standard $6.99/мес (~660 кредитов), Pro $25.99/мес; бесплатный тир с ограниченными кредитами.
- docs Hailuo AI (MiniMax). Видеогенератор: клипы 6 секунд, 768p; Basic $4.99/100 кредитов · Standard $9.99/250 · Pro $19.99/500; кредиты новичкам бесплатно.
- docs Pika. Pricing: клипы 5 секунд; Basic бесплатно · Standard $28/700 кредитов · Pro $76/2300 кредитов.
- docs Runway. Pricing: Free $0/125 кредитов · Standard $12/625 кредитов · Pro $28/2250 кредитов.
- docs OpenAI Help Center. «What to know about the Sora discontinuation» — приложение и сайт Sora закрыты 26.04.2026; API работает до 24.09.2026; данные экспортируются через sora.chatgpt.com/sunset.