Цех изображений
Как получить нужный кадр, а не случайный — четыре станка для картинок
Цели урока
К концу этого урока вы:
- Поймёте, из чего состоит запрос на картинку: что в кадре, стиль, ракурс, формат.
- Разберёте четыре станка и что у каждого лучше получается.
- Узнаете, какой станок закрыли прямо сейчас — и чем заменили.
- Научитесь итерировать запрос, а не плодить случайные варианты.
- Поставите ОТК картинки: пальцы, текст, несоответствие деталей.

Сейчас объясню так, что станет очевидно. Слушай.
Цех изображений
Вот типичный сценарий, который происходит в первый вечер. Человек открывает генератор картинок, пишет «красивое фото уютного кафе» — и получает интерьер из параллельной вселенной: пять пальцев на четырёх руках, текст на вывеске в стиле клинописи, бармен с одним глазом. Красиво? Пожалуй. Полезно для ролика? Нет.
Проблема та же, что и в цехе идей: пустой запрос. Только здесь «пустым» считается запрос без трёх вещей — что именно в кадре, в каком стиле и в каком формате. Без этого станок выдаёт статистически среднее по миллиону картинок на похожий запрос. Среднее смотрится гладко, но не работает на ваш ролик.
В прошлом уроке мы сделали раскадровку — список кадров с описанием [L2]. Теперь каждый кадр из этого списка нужно воплотить. У вас уже есть заказ-наряд на картинку; осталось выбрать станок и правильно его запустить.
Быстрое повторение
Что вы возьмёте из этого урока
- Поймёте, из чего состоит запрос на картинку: что в кадре, стиль, ракурс, формат.
- Разберёте четыре станка и что у каждого лучше получается.
- Узнаете, какой станок закрыли прямо сейчас — и чем заменили.
- Научитесь итерировать запрос, а не плодить случайные варианты.
- Поставите ОТК картинки: пальцы, текст, несоответствие деталей.
Часть 1. Картинка — кадр конвейера
Вернёмся к карте завода из Урока 1 [L1]. Там цех изображений — второй после цеха идей. Его задача проста: взять описание кадра из раскадровки и выдать конкретное изображение, которое пойдёт дальше по ленте — в видеомонтаж, в слайд, в пост.
Картинка — не самоцель. Она звено. Именно поэтому важно до открытия станка знать ответы на три вопроса: что в кадре, в каком стиле, в каком формате. Без этого генератор работает как слепая лотерея: иногда попадает, чаще нет.
Часть 2. Как просить картинку
Анатомия запроса для картинок та же логика, что и для сценария из Урока 2 [L2]: четыре части, каждая выполняет свою работу. Только вместо «роли и аудитории» здесь — визуальные параметры.
Попробуем превратить это в живой запрос. Кадр 1 из раскадровки нашего примера с осанкой: нужна женщина за ноутбуком в «рабочей» позе. Вот как запрос растёт при добавлении каждой части:
Только объект (плохо)
«Женщина за ноутбуком» — получите офисный стоковый снимок из 2018 года, стопроцентно видели такой.
Объект + стиль (лучше)
«Женщина за ноутбуком, сгорбившись, современный минималистичный иллюстративный стиль, тёплые тона» — уже что-то своё.
Объект + стиль + ракурс + формат (работает)
«Женщина средних лет за ноутбуком, плечи подняты к ушам, вид сбоку, крупный план поясницы и шеи, иллюстрация в тёплых бежевых тонах, вертикальный формат 9:16» — это уже конкретный кадр для вашего ролика.
Часть 3. Четыре станка и их сильные стороны
Станки меняются, как напомнил нам конвейер ещё в Уроке 1 [L1]. Прямо сейчас — свежий пример этого принципа в действии: старый DALL·E, которым многие пользовались годами, закрыли 12 мая 2026 года. Заменил его GPT Image 2 — новый станок прямо внутри ChatGPT [2][3].
Держать в голове все инструменты смысла нет: рынок переколбашивает каждые несколько месяцев. Полезнее знать, у каких типов станков какая сильная сторона — тогда, когда один инструмент закроют, вы быстро найдёте замену.
GPT Image 2 (ChatGPT)
Сильная сторона: быстрый черновик, хорошо понимает сложный описательный запрос на русском. Что изменилось: с 21.04.2026 это новый станок внутри ChatGPT вместо старого DALL·E; Free — 2–3 картинки в день, Plus — $20/мес [2][3]. Удобен, когда нужно быстро прощупать визуальный стиль до того, как тратить время на другой инструмент.
Midjourney
Сильная сторона: художественная эстетика, текстуры, атмосфера. Если нужна иллюстрация с «рукотворным» ощущением или очень конкретный визуальный стиль — Midjourney держит планку. Проверьте актуальный прайс на сайте перед использованием: тарифы обновляются.
Flux
Сильная сторона: фотореализм и открытая модель. Flux хорошо справляется с реалистичными сценами — люди, предметы, пространства. Можно запустить через несколько онлайн-сервисов; часть из них работает с оплатой картами РФ, часть — нет. Уточняйте на конкретном сервисе.
Kandinsky (Сбер)
Сильная сторона: работает из РФ без VPN, понимает кириллицу, принимает рублёвую оплату. Kandinsky 5.0 доступен через GigaChat бесплатно для личного использования [4][5]. Если другие станки недоступны — это рабочая альтернатива прямо здесь.
Часть 4. Итерация: правим запрос, а не плодим варианты
Распространённая ловушка — нажать «генерировать» десять раз, надеясь, что один из вариантов угадает. Это лотерея, а не производство. На заводе не запускают конвейер десять раз и не берут лучший результат — они настраивают станок до нужной точности и потом запускают один раз.
Итерация в цехе изображений — это последовательное уточнение запроса, а не случайный перезапуск. Работает так:
шаг 1: получить черновик
Первый запрос — не финал. Его задача — показать, как станок интерпретирует вашу идею. Смотрите, что получилось и что именно не то.
шаг 2: назвать, что именно не так
Не «сделай лучше» (станок не понимает «лучше»), а «слишком тёмный фон», «лицо в тени — нужен свет спереди», «убери лишний элемент справа».
шаг 3: добавить или убрать деталь в запрос
Один правки за раз. Если поменять сразу три вещи — непонятно, какая из них исправила проблему. Через 2–3 итерации запрос становится точным — и его уже можно сохранить как шаблон для похожих кадров.
Практический приём: когда запрос дал хороший результат — скопируйте его целиком и сохраните. Это ваш эталонный запрос для этой задачи. Меняя одну переменную (например, только стиль или только цвет), вы получаете серию похожих картинок для одного ролика — единый визуальный язык без потери времени.
Часть 5. ОТК картинки
Прежде чем кадр идёт на следующий цех, ОТК проверяет три вещи. Это быстро — занимает секунды, но спасает от публикации очевидного брака.
лишние пальцы
Руки — слабое место всех генераторов. Шесть пальцев, согнутые в невозможную сторону суставы, слитые ладони. Проверяйте каждое изображение с людьми. Если руки не нужны — уберите их из кадра на уровне запроса.
кривой текст
Надписи в картинке — ещё одна зона риска. Генераторы часто путают буквы, переставляют слова, пишут «псевдоязыком». Если нужен текст в кадре — добавляйте его в монтаже (L7), не просите у генератора.
недостоверные детали
Марки одежды, логотипы, надписи на упаковках — станок их изобретает. Если в кадре должен быть конкретный продукт или бренд — проверьте, что на картинке нет фантомного названия или несуществующего логотипа.
прошёл ОТК
Нет анатомических ошибок, нет кривого текста, детали соответствуют реальности. Можно передавать на следующий цех — в видеомонтаж или в финальную сборку.
Отдельный случай — картинки с людьми в реалистичном стиле. Если такое изображение может быть принято за фотографию реального человека — YouTube и Meta потребуют пометить его как синтетический контент при публикации [6]. Kandinsky и другие станки не делают маркировку автоматически. Это ваш ответственный пункт ОТК — не забудьте про пометку. Подробнее о правовой стороне — в Уроке 9.
Резюме
картинка без запроса — лотерея
Запрос на картинку = что в кадре + стиль + ракурс + формат. Чем конкретнее — тем меньше случайности.
четыре станка — четыре сильных стороны
GPT Image 2 (быстрый черновик), Midjourney (эстетика), Flux (фотореализм), Kandinsky (RU без VPN). Станок умер? Принцип цеха остался — ставьте следующий.
итерировать запрос, а не перезапускать наугад
Один правок за раз. После 2–3 итераций у вас есть точный шаблон — используйте его для всей серии кадров.
ОТК картинки: три пункта
Пальцы/анатомия, кривой текст, недостоверные детали. Реалистичные люди — добавить маркировку при публикации.
Что дальше, в Уроке 4 — «Цех видео»: картинки готовы — теперь они должны двигаться. Разберём text-to-video станки: как из раскадровки получить серию коротких клипов по 5–8 секунд, почему их не нужно бояться, и как потом склеить из них полноценный ролик в сборочном цехе. Плюс — те же три вопроса ОТК, но уже для движущегося изображения.
Источники / Sources
- docs ai-forever / Kandinsky 4.0 Video. Kandinsky 4.0 Video — до 12 сек HD; версия 5.0 доступна через GigaChat бесплатно для личного использования без VPN.
- docs ChatGPT pricing. GPT Image 2 встроен в ChatGPT (запущен 21.04.2026): Free — 2–3 картинки/день; Plus — $20/мес. Актуальную тарификацию проверяйте на странице chatgpt.com/pricing.
- blog AI Unpacking. «DALL-E Review» — DALL-E 2/3 отключены 12.05.2026, заменены GPT Image 2 (запуск 21.04.2026).
- docs Сбер Девелоперс. GigaChat freemium — 1 000 000 токенов/год для физлиц (действует с 01.02.2026); Kandinsky доступен через GigaChat-интерфейс.
- docs YouTube Help / Meta. Требование раскрывать реалистичный синтетический контент (ИИ-изображения людей, сфабрикованные сцены) при публикации — YouTube тумблер при загрузке, Meta автоматически «Made with AI» через C2PA.