Цифровая запись и обработка звука
Представим фрагмент записи звука реального инструмента с огибающей A (t), включающий Ти — временной интервал атаки, Тс — стационарный участок звучания, Т, — интервал затухания; общее время звучания равно ТоГшг Пусть в памяти синтезатора (или компьютера) он представлен в цифровом виде, т. е. последовательностью из N отсчетов, взятых через интервал At. Когда требуется синтезировать звук этого… Читать ещё >
Цифровая запись и обработка звука (реферат, курсовая, диплом, контрольная)
Синтез звука техническими средствами известен очень давно: еще не освоив электричества, человечество пыталось синтезировать речь. А едва освоив электричество, люди уже в первой четверти XX века попробовали использовать его для синтеза речи [Кейтер 1985] и музыкального звука (см., например, [Володин 1979; Ментюков и др. 1993]). Первоначально электромеханический, а затем электронный синтез музыкального звука (1905;1935) с помощью генераторов синусоидальных составляющих с постоянной амплитудой и частотой давал не слишком обнадеживающие результаты: синтетический звук долгое время оставался «холодным», «неживым». Изобретенный в то же время Л. Терменом электронный аппарат «терменвокс» выгодно отличался от других большой интонационной свободой, возможностью плавного глиссандирования; этот инструмент используется в концертной практике по сей день, однако не покрывает, естественно, все потребности музыкантов. В 20−30-е годы XX века начался промышленный выпуск электромузыкальных инструментов (ЭМИ), которые устанавливались в студиях звукозаписи, радиовещательных студиях и использовались на киностудиях.
Широкое внедрение электронных аналоговых синтезаторов началось только после Второй мировой войны, и одним из пионеров, разрабатывавших новые идеи и воплощавших их в инженерные конструкции, был русский ученый А. А. Володин (см. [Володин 1979]). Первые инструменты были одноголосными, и сам изобретатель называл их мелодическими электромузыкальными инструментами. Позже одновременно с появившейся широкой свободой темброобразования в этом семействе инструментов выявилась, и большая сложность управления тембром, который, в отличие от мелодии, не имеет простого и интуитивно ясного описания. А. А. Володин обосновал следующий принцип проектирования: свобода выбора музыкантом выразительных средств должна быть ограничена, подобно тому как она ограничена в традиционных акустических инструментах. В 1960;1970;е годы сложилось мнение, что главной задачей синтезатора является возможно более точное воспроизведение тембра «настоящих» (акустических) инструментов. Однако при этом ЭМИ были исключительно клавишными, и воспроизведение на их клавиатуре, например, скрипичного исполнения вырастало в отдельную задачу и для музыканта-исполнителя, и для конструктора инструмента [Ментюков и др. 1993]. Тем не менее сама идея соревнования с «настоящими» инструментами или — шире — естественными источниками звука была весьма полезна в научном плане, поскольку активизировала исследования этих источников и выявление тех физических характеристик звука, которые «ответственны» за натуральность звучания. В частности, было показано, что исключительно важное значение для тембра инструмента имеет воспроизведение характерных для него атаки и затухания. Бурный прогресс в области электронного синтеза музыкального звука начался с внедрением в синтезаторы быстродействующей микропроцессорной техники.
В синтезаторах, как аналоговых, так и цифровых, используются несколько схем построения, отличающихся диапазоном своих возможностей и сложностью управления. Так, долгое время использовался непосредственный синтез звука из гармонических составляющих, параметры которых — частоты, амплитуды и фазы — можно было регулировать. Далее гармонические составляющие складывались (в связи с чем схема называлась аддитивным синтезом) и подавались на вход электронного усилителя. Теоретически, пользуясь такой схемой, можно генерировать любой звук, спектр которого известен из предварительно проведенного анализа (см. раздел, посвященный спектральному анализу). Для улучшения естественности звучания следует, однако, обеспечить вариабельность амплитуд гармоник в процессе звукоизвлечения, поскольку известно, что разные гармоники в период атаки, стационарного звучания и затухания ведут себя по-разному. Это сразу намного усложняет схему и управление ею, хотя одновременно дает новые возможности, в том числе недоступные акустическим инструментам.
Технически более удобным оказался так называемый разностный метод синтеза, предусматривающий генерацию многих частотных составляющих будущего звука, из которых с помощью фильтра выбираются компоненты для синтеза. В начале 1980;х годов стал распространяться частотно-модуляционный принцип синтеза.
Представим фрагмент («сэмпл») записи звука реального инструмента, используемый для синтеза. Тэ — временной интервал атаки, Тс — стационарный участок звучания, Т3 — интервал затухания использовался в синтезаторах фирмы «Ямаха». Этот метод дал возможность хорошо воспроизводить такие трудные для синтеза звуки, как стук, бой, звуки ударных инструментов. Это было большим достижением, хотя управление синтезатором и усложнилось.
Наилучшее на сегодня качество воспроизведения звучания акустических музыкальных инструментов достигается в электронных синтезаторах, использующих цифровое представление звука. Этот метод синтеза называют «сэмплерным» (от англ. sample — «образец», «шаблон», «модель»), поскольку в нем используется запись реального звука инструмента. Цифровое представление этого образчика звука дает возможность «творить чудеса», генерируя сколь угодно протяженный звук с «настоящими» атакой и затуханием на основе сравнительно короткой цифровой записи реального звука. Рассмотрим этот метод подробнее (см. также [Ментюков и др. 1993]).
Представим фрагмент записи звука реального инструмента с огибающей A (t), включающий Ти — временной интервал атаки, Тс — стационарный участок звучания, Т, — интервал затухания; общее время звучания равно ТоГшг Пусть в памяти синтезатора (или компьютера) он представлен в цифровом виде, т. е. последовательностью из N отсчетов, взятых через интервал At. Когда требуется синтезировать звук этого инструмента, точно совпадающий по длительности с записанным, достаточно просто считывать из памяти отсчет за отсчетом, формировать в последовательные моменты времени с шагом Д/1 электрические импульсы, пропорциональные этим отсчетам, и путем их сглаживания в ФНЧ получать требуемый звук (см. выше раздел, посвященный воспроизведению цифрового звука). звук генератор синтезатор электроакустический Пусть теперь стоит задача сформировать звук того же инструмента, но другой длительности. Алгоритм генерации звука с произвольно заданной длительностью и с сохранением формы атаки и затухания выглядит следующим образом. Из первоначальной записи выделяется интервал атаки (па — Г"/Дг первых точек) и интервал затухания (п3 = 7УД? последних точек записи); интервал стационарного звучания, находящийся между ними, содержит пс точек-отсчетов. Если нужно сформировать звук длительностью в Тзв секунд, то программа, заложенная в синтезатор или компьютер, «поступает» следующим образом.
Рассчитывается интервал стационарного звучания как.
1 т с пищ =1 зТв 1- ТазТ"
т. е. из полного требуемого времени звучания вычитается время атаки и время затухания. Рассчитывается число повторов стационарного участка исходной записи, необходимых для «покрытия» требуемого стационарного звучания:
Ыстщ = Татщ /Тс.
Далее формируется последовательность отсчетов, представляющих в оперативной памяти требуемый звук:
- 1) начало (первые па отсчетов) берутся из интервала атаки;
- 2) вслед за ними Ыстац раз повторяется фрагмент записи, соответствующий стационарному звучанию;
- 3) для окончания формируемого звука копируется интервал затухания Тз.
Сформированная таким способом последовательность отсчетов «озвучивается» по описанному ранее алгоритму, и получается естественный звук инструмента, но с измененной длительностью. При реализации этого алгоритма возникает, естественно, множество технических проблем: например, «склейка» интервалов стационарного звучания, т. е. их сопряжение в неестественном порядке, требуют «подгонки» фазы колебаний на стыке, иначе в этот момент будет слышен щелчок.
Еще одна проблема состоит в том, что само определение временных интервалов атаки, стационарного звучания и затухания не самоочевидно. Определение этих фрагментов показано на примере гипотетической «гладкой» формы огибающей звука инструмента, в то время как на практике огибающая может быть гораздо менее «удобной» для работы. Например, одиночный звук инструмента кото, возбуждаемый щипком струны, имеет очень короткий период атаки и практически не имеет «стационарного» фрагмента — сразу после атаки звук начинает затухать.
Очевидно, что для данного инструмента задача синтеза более длительного звука и не встает, поскольку такое звукоизвлечение не является характерным для него (как и для фортепиано), однако алгоритмы синтеза должны работать единообразно с фонограммами всех инструментов, а в этом случае описать звук в терминах атаки — стационарного звука — затухания будет затруднительно.
Дополнительные сложности возникают, когда требуется генерировать звук инструмента на разных высотах. Например, пусть требуется, чтобы высота была ровно на октаву ниже исходной. С точки зрения акустики — это значит, что нужно создать колебание, частота которого вдвое меньше, чем в исходной записи. Для этого нужно повторить описанную схему синтеза, но импульсы, соответствующие отсчетам, теперь следует генерировать вдвое реже. При этом весь записанный процесс будет воспроизведен вдвое медленнее, частота основного тона окажется действительно вдвое ниже, но длительность увеличится тоже вдвое. Точно такой же эффект достигается при прослушивании магнитофонной записи на вдвое пониженной скорости. Итак, требуемый эффект будет достигнут (по высоте тона), но заодно изменится и длительность, а вместе с ней — и форма атаки и затухания. Чтобы создать звук на октаву ниже исходного, но с той же продолжительностью атаки и затухания, характерных для данного инструмента, в добавление к описанному алгоритму потребуется использование более сложных алгоритмов, учитывающих форму огибающей на этапе атаки, стационарного звучания и затухания и «умеющих» заполнить эту огибающую реальным звуком инструмента, приведенным к нужной высоте.
Итак, имея в памяти синтезатора одну-единственную запись одного звука реального инструмента, можно синтезировать все звуки в желаемом диапазоне высот (в том числе и там, где реальный инструмент не может звучать!). При нажатии на синтезаторе нескольких клавиш производится параллельный синтез сразу нескольких звуков данного инструмента. Отметим, однако, что на самом деле музыкальный инструмент звучит в разных частях диапазона по-разному (в смысле тембра), поэтому использование записи звука на единственной ноте не позволяет адекватно воссоздать звучание инструмента во всем его диапазоне, и для повышения качества имитации требуется дальнейшее усложнение алгоритма.
Описанные подходы могут быть использованы не только для синтеза звука акустических музыкальных инструментов, но и для преобразования любых реальных звуков, записанных в цифровом виде. Это открывает широкие возможности для компьютерной звукорежиссуры, а также для создания композиций электроакустической музыки. Рассмотрим несколько примеров изменения параметров звукового сигнала в соответствии с замыслом режиссера.
Часто используется плавный переход по громкости, т. е. плавное нарастание ее в начале музыкального номера и плавное убывание в конце. Это достигается пересчетом амплитуд отсчетов сигнала в соответствии с желаемым законом нарастания-убывания (в англоязычных компьютерных программах работы со звуком эти операции называются Fade In и Fade Out).
Пусть требуется придать звуку эффект эха, т. е. сделать так, чтобы на слух воспринимался и сам звук, и одновременно его «отражение» от поверхности стен помещения, хотя при записи такого отражения не было. Этот эффект осуществляют суммированием основного колебания и того же колебания, сдвинутого по времени (запаздывающего) и с уменьшенной амплитудой (поскольку эхо не может быть громче порождающего звука). Очевидно, при цифровом представлении звукового сигнала можно плавно регулировать как «степень отражения» (амплитуду эхо-сигнала), так и «расстояние» до препятствия (т. е. интервал запаздывания эхо-сигнала). Как и в реальной ситуации, такое наложение выполняется много раз, пока амплитуда эхо-сигнала не станет пренебрежимо малой. Регулируя величину запаздывания и коэффициент ослабления «эхо-сигнала», мы как бы изменяем параметры моделируемого помещения (такая операция доступна в программах типа Sound Forge).
Более сложная задача состоит в том, чтобы немного увеличить или уменьшить время звучания записи, не изменяя высоты звука. Она решается по алгоритму, подобному тому, который используется для синтеза звука инструмента на произвольной высоте на базе записи одного единственного реального звука; сложность состоит здесь в том, чтобы незаметно для слуха «вырезать» или «вклеить» фрагменты исходной записи в преобразованную запись. Аналогично этому можно изменить высоту звука, не меняя его длительности (см. выше).
Еще одной сложной задачей является восстановление старых записей, содержащих щелчки и другие дефекты. Такая задача возникает при работе с фонограммами, сохранившимися только на старых носителях — восковых валиках, грампластинках и магнитофонных пленках. Для исправления дефектов используется мощный математический аппарат, позволяющий заменять разрушенные фрагменты синтезированными, по всем показателям аналогичными окружающим их фрагментам реальной записи. Необходимая «подгонка» выполняется по комплексному спектру, т. е. с учетом и амплитудных, и фазовых соотношений. Как мы уже указывали, такие записи переводятся в цифровую форму с большим «запасом» как по частоте дискретизации, так и по разрядности кодирования отсчетов, что обеспечивает необходимую точность преобразований.