Урок 5

Цех звука

Голос и музыка — как собрать звуковую дорожку

Цели урока

К концу этого урока вы:

Поймёте, почему звук — не финальный штрих, а отдельный цех с собственным порядком работы.
Научитесь работать с ElevenLabs: озвучка текста, голоса, что можно клонировать (только свой) и при каком тарифе получаете коммерческие права.
Узнаете, как генерировать фоновую музыку в Suno — и что «бесплатно» в Suno означает «без права зарабатывать».
Освоите порядок сборки звука: текст → голос → музыка → сведение — и поймёте, почему именно этот порядок, а не наоборот.
Разберёте ОТК звука: роботизированность, проблемы с громкостью, артефакты дорожки.

О, ты здесь! Отлично — у меня для тебя кое-что есть.

цех звука — микрофоны, светящиеся звуковые волны, динамики

Выключите звук на телефоне и пролистайте ленту. Половина роликов станет непонятной: слова без голоса, музыкальные переходы без музыки, смешное без интонации. Теперь включите обратно — и вы снова понимаете, что происходит за долю секунды, ещё до того, как картинка сложилась в смысл.

Звук — это половина впечатления. Возможно, больше половины: исследования монтажа давно показали, что плохой звук хорошая картинка не спасёт, а хорошая озвучка вытягивает среднюю картинку. Тем не менее большинство новичков тратят 90% времени на видео — а звук пишут в последний момент, нажав первую попавшуюся кнопку. Получается: кино сняли, а смотреть невозможно.

Сегодня в цехе два станка: голос (ElevenLabs) и музыка (Suno). И один принципиальный вопрос: зачем вообще порядок, если можно просто всё нажать и смешать?

Урок 1 — Проходная Карта завода. ОТК. Заказ-наряд: для кого, что, из какого сырья.

Урок 2 — Цех идей Сценарий и раскадровка. Текстовый ИИ превращает заказ-наряд в план ролика с текстом озвучки.

Урок 4 — Цех видео Text-to-video: клипы 5–8 сек, сборка из звеньев, ОТК на морфинг и артефакты.

Урок 5 — Цех звука ← сейчас Голос (ElevenLabs) и музыка (Suno). Порядок сборки звука. ОТК дорожки.

Что вы возьмёте из этого урока

Поймёте, почему звук — не финальный штрих, а отдельный цех с собственным порядком работы.
Научитесь работать с ElevenLabs: озвучка текста, голоса, что можно клонировать (только свой) и при каком тарифе получаете коммерческие права.
Узнаете, как генерировать фоновую музыку в Suno — и что «бесплатно» в Suno означает «без права зарабатывать».
Освоите порядок сборки звука: текст → голос → музыка → сведение — и поймёте, почему именно этот порядок, а не наоборот.
Разберёте ОТК звука: роботизированность, проблемы с громкостью, артефакты дорожки.

Часть 1. Звук — половина впечатления

Мозг обрабатывает звук и картинку по-разному. Картинку мы воспринимаем осознанно — смотрим, читаем, разбираем. Звук приходит на долю секунды раньше и создаёт эмоциональный фон раньше, чем мы успеваем понять что-либо из визуального ряда. Именно поэтому реклама и кино используют музыку как инструмент настроения, а не украшение.

Для короткого ролика это переводится в простое правило: звук слышат даже когда не смотрят. Кто-то листает ленту со звуком в кармане или за работой — и останавливается не на красивой картинке, а на интонации, на фразе, на темпе музыки. Картинка привлекает глаз, звук держит внимание.

🤔 Прикиньте до того, как читать

Вспомните ролик, который вы сохранили или пересматривали. Был ли там звук? Какую роль он играл: помогал понять смысл, создавал настроение, или и то и другое? Что было бы, если убрать только звук — ролик стал бы хуже или нет?

Не торопитесь. Это не тест на правильный ответ — это попытка осознать то, что вы уже умеете чувствовать как зритель. Потом прочтёте про порядок сборки и поймёте, откуда он берётся.

Из этого вытекает кое-что нелогичное: звук надо планировать в начале, а не в конце. Сценарий из Урока 2 уже содержал текст для озвучки — каждая сцена в раскадровке имела голос за кадром или диалог. Вот этот текст и идёт в цех звука первым. Клипы из Урока 4 подстраиваются под ритм голоса, а не наоборот.

Часть 2. Станок голоса: ElevenLabs

ElevenLabs — сейчас один из лучших генераторов речи: голос звучит уверенно, интонация живая, паузы естественные. Принцип простой: вы вставляете текст, выбираете голос из библиотеки — и получаете аудиофайл с озвучкой [1].

Тарифы (снапшот 2026-05-31, проверяйте актуальный прайс):

Тариф	Символов/мес	Коммерческие права	Клонирование голоса
Free	10 000	❌	базовое Instant
Starter ($6/мес)	30 000	✅	Instant Voice Clone
Creator ($22/мес)	100 000	✅	Professional Voice Clone

Важное про коммерческие права: озвучку с Free-тира нельзя использовать для заработка — ни в монетизированных видео, ни в рекламе, ни в продаваемых продуктах [1]. Для любой публикации с целью заработка нужен минимум Starter. Это не мелкий шрифт — это условие лицензии.

О клонировании голоса — и почему только своего

ElevenLabs позволяет создать клон голоса: загрузить несколько минут записи — и получить синтетическую версию, которая звучит как вы. Технически это работает для любого голоса, у которого есть запись. Но ElevenLabs явно запрещает клонировать чужой голос без согласия: Professional Voice Clone требует верификации — вы записываете специальный фрагмент, который доказывает, что клонируете именно себя [2].

Почему это важно сейчас, а не в Уроке 9: клонирование чужого голоса без согласия — это нарушение условий сервиса, нарушение прав человека и потенциально уголовная история в ряде юрисдикций. Техническая возможность не равна правовой. Этот мост мы протянем в Уроке 9, где разберём маркировку и права подробно. Сейчас правило одно: клонируете только свой голос.

Для большинства роликов клонирование вообще не нужно: в библиотеке ElevenLabs есть сотни готовых голосов на разных языках. Выбирайте по темпу, тембру и «характеру» — они сильно различаются. Русскоязычные голоса там тоже есть.

Если хочется полностью бесплатный путь из России без VPN — альтернатива: SaluteSpeech от Сбера, 200 000 символов синтеза в месяц бесплатно [3]. Звучит немного механичнее, чем ElevenLabs, но работает без регистрации за рубежом.

🎤

Человек сгенерировал голос, который звучит как диктор государственного телевидения 1987 года. Серьёзный, чёткий, с паузами между каждым словом. Вставил в ролик про рецепт пельменей. Сверху положил весёлую музыку. Пельмени получились тревожными. Голос и музыка — это не два независимых файла, это диалог. Если они не в одном жанре — зритель почувствует что-то нехорошее, но не поймёт что.

Часть 3. Станок музыки: Suno

Suno генерирует музыкальные треки по текстовому описанию: жанр, темп, настроение, инструменты. «Лёгкая акустическая гитара, утреннее настроение, 90 BPM» — и через несколько секунд у вас есть фоновый трек. Получается убедительно: ритм, гармония, динамика — всё на месте [4].

Тарифы Suno (снапшот 2026-05-31):

Тариф	Кредиты	Коммерческие права
Free	50 кредитов/день	❌
Pro ($8/мес)	2500 кредитов/мес	✅

Тот же принцип, что в ElevenLabs: бесплатный тир — для личного использования и тестов. Хотите включить трек в ролик, который монетизируется или используется в рекламе — нужен Pro [4].

Suno создаёт полноценные треки с вокалом, если попросить. Для фонового использования в ролике вокал обычно не нужен: он конкурирует с голосом за кадром. Лучше явно написать в промпте: «инструментальный, без вокала, фоновый» — иначе получите песню с текстом поверх вашего голоса.

Практика: один кредит Suno = один трек (~2 минуты). На бесплатном тире — 50 треков в день. Этого хватит на несколько часов тестирования. Трек генерируется за 10–30 секунд.

✋ Предскажи

У вас есть ролик про рецепт торта: голос за кадром объясняет шаги, потом — музыкальный финал. Вы сгенерировали музыку в Suno (Free) и смонтировали. Ролик вышел хорошим, вы его выложили. Через месяц канал монетизировали. Что произошло с правами на музыку в этот момент — и что нужно было сделать иначе?

Посмотрите на таблицу тарифов Suno выше. Коммерческие права появляются на каком тире?

Часть 4. Порядок сборки звука

Ошибка новичка: сначала собрать видео, потом добавить звук «сверху». Это работает, но неудобно: голос не попадает в ритм картинки, музыка слишком громкая, паузы не там. Профессиональный порядок — противоположный: звук строится до монтажа, видео подстраивается под звук.

Для наших коротких роликов — промежуточный вариант: сначала текст, потом голос, потом музыка, потом сведение — и только потом в монтаж. Вот почему именно так:

Текст озвучки

Уже готов из сценария (Урок 2). Именно он определяет хронометраж. 200 слов = примерно 80–90 секунд озвучки в среднем темпе. Зная длину голосовой дорожки, вы понимаете, сколько клипов из Урока 4 нужно.

Голос (ElevenLabs или SaluteSpeech)

Генерируете полную озвучку. Слушаете с закрытыми глазами: понятно ли? Не роботизированно ли? Правильные ли паузы между предложениями? Это первый ОТК звука.

Музыка (Suno или другой)

Генерируете трек под настроение ролика. Жанр и темп должны совпадать с темпом голоса: энергичный голос + медитативная музыка = диссонанс. Трек делаете чуть длиннее хронометража — обрежете в монтаже.

Сведение

Голос на первом плане, музыка на втором. Технически: голос — 100%, музыка — 20–30% от этого уровня. Проверяете на телефонном динамике и в наушниках: должно быть понятно везде.

После сведения у вас есть готовая звуковая дорожка. Она уходит в монтажный цех (Урок 7) и там «стыкуется» с клипами: видеоряд нарезается по ритму речи, а не наоборот.

Часть 5. ОТК звука: что проверяем

ОТК видео мы разобрали в Уроке 4: морфинг, артефакты, уплывающие детали. ОТК звука — другой набор дефектов, но принцип тот же: слушаем с закрытыми глазами и с открытыми.

Три дефекта ОТК звука. Проверяйте последовательно: сначала голос в тишине, потом — оба трека вместе на телефоне.

🤖

Роботизированность

Закройте глаза, слушайте только голос. Если интонация ровная как у кассовой машины или паузы не там, где нужны смыслу — брак. Решение: разбейте текст на более короткие фразы, добавьте знаки препинания где нужны паузы, или смените голос в библиотеке.

📻

Громкость: голос и музыка

Включите оба трека вместе и слушайте на телефонном динамике без наушников (так смотрит большинство зрителей). Слова должны быть понятны без напряжения. Если приходится прислушиваться — музыка слишком громкая. Правило большого пальца: голос на полной громкости, музыка — 20–30% от этого.

⚡

Артефакты на стыках

Щелчок в начале файла, обрезанная последняя буква слова, пауза там, где её не ждут. Это бывает, если генератор «забыл» сказать окончание фразы или если текст обрезан посередине предложения. Проверяйте каждый стык между фрагментами.

Про тишину между сценами: в коротких роликах часто забывают о паузах. Если в сценарии написано «пауза два секунды» — вставляйте тишину буквально: пустой фрагмент нужной длины. Без паузы монтаж будет лететь как скорочтение, даже если картинка красивая.

Резюме

Звук — половина впечатления

Планируйте его с самого начала, а не в последний момент. Сценарий из Урока 2 уже содержит текст для озвучки — этот текст первым идёт в цех звука.

ElevenLabs: голос + коммерческие права только от Starter ($6)

Клонировать можно только свой голос. Для бесплатного RU-варианта — SaluteSpeech (Сбер, 200k символов/мес).

Suno: музыка + коммерческие права только от Pro ($8)

Бесплатные 50 кредитов в день — для теста. В промпте явно пишите «инструментальный, без вокала» для фоновой музыки.

Порядок: текст → голос → музыка → сведение → монтаж

Голос определяет хронометраж. Музыка подстраивается под него. При сведении: голос 100%, музыка 20–30%.

ОТК звука: роботизированность, громкость, артефакты

Слушайте сначала голос в тишине, потом оба трека вместе на телефоне. Проверяйте стыки.

Хорошая картинка без звука — немое кино. Плохой звук убивает хорошую картинку. Звук в приоритете.

Что дальше, в Уроке 6 — «Цех аватаров»: бывает, что ролику нужен ведущий в кадре — говорящее лицо, а не только голос за кадром. Разберём, как работает аватар (HeyGen, Synthesia), что такое consent-video, почему аватар чужого человека — это прямой путь к бану, и где граница между «цифровым ведущим» и дипфейком.

Источники / Sources

docs ElevenLabs. Pricing: Free 10 000 символов/мес без коммерческих прав · Starter $6/мес с коммерческими правами · Creator $22/мес с Professional Voice Clone. Публикация и коммерческие права по тарифам: help.elevenlabs.io/en/articles/13313564601361. elevenlabs.io/pricing · accessed 2026-05-31
docs ElevenLabs Help. «Can I create a Professional Voice Clone of someone else’s voice?» — Professional Voice Clone только своего голоса + верификационная запись; клон чужого голоса запрещён правилами сервиса. help.elevenlabs.io/hc/en-us/articles/36842751624209 · accessed 2026-05-31
docs Сбер / SaluteSpeech. Тарифы физлицам: 200 000 символов синтеза речи в месяц бесплатно; без VPN; оплата рублёвыми картами. developers.sber.ru/docs/ru/salutespeech/tariffs/individual-tariffs · accessed 2026-05-31
docs Suno. Pricing: Free 50 кредитов/день без коммерческих прав · Pro $8/мес 2500 кредитов с коммерческими правами. Коммерческие права на выход: help.suno.com/en/articles/9601665. suno.com/pricing · accessed 2026-05-31

Цены и лимиты — снапшот 2026-05-31; меняются ежемесячно. Перед оплатой проверяйте на официальных сайтах инструментов. Регистрация зарубежных сервисов из РФ подробно разобрана в курсе «ИИ-сотрудник: Claude для нетехов». Клонирование голосов и правовые аспекты подробно разбираются в Уроке 9 («Техпаспорт»).