Приветствую Вас, Гость
Главная » 2010 » Октябрь » 19 » продолжение темы3
17:39
продолжение темы3
Рис. 3.5. Генерация сигналов с заданной огибающей при получении звука посредством FM-синтеза

В большинстве случаев для синтеза одного инструмента достаточно двух операторов - оператора несущей (основной тон) и оператора модулирующей частоты (обертон). Например, для струнных инструментов (фортепиано, гитара и др.) можно выделить общие моменты - при нажатии произвольной клавиши (возбуждении колебаний струны) амплитуда сначала быстро возрастает до максимума, затем несколько спадает, после чего следует относительно продолжительный участок медленного падения амплитуды и, наконец, участок быстрого затухания. Описанные стадии сигнала носят названия Attack, Decay, Sustain и Release соответственно, поэтому сам генератор огибающей именуется ADSR-генератором (по первым буквам фаз сигнала, см. рис. 3.6).
Обычно пара операторов определяет голос; современные наборы микросхем для FM-синтеза звука содержат до 36-40 голосов, осуществляя различные режимы (алгоритмы) FM-синтеза (в том числе и самые сложные, предполагающие использовать 18 и более операторов для синтеза речи). В звуковых картах обычно присутствует специальный генератор шума, обрабатываемый одним оператором (оператором огибающей).
Кроме FM-синтеза, в высококачественных звуковых картах используется табличный или WT-синтез (Wave Table synthesis); такие устройства именуют также синтезаторами выборок или сэмплерами (Samples). Идея применения WT-синтеза состоит в использовании специальных алгоритмов, позволяющих по одному лишь характерному тону (выборке) музыкального инструмента воспроизвести все остальные тона (фактически восстановить его полное звучание).

Рис. 3.6. Синтез звука при использовании генератора огибающей (ASDR-генератор)

Выборки сигналов (таблицы) сохраняются в ROM (Read Only Memory) или программно загружаются в RAM (Random Access Memory) звуковой карты, после чего специализированный WT-процессор выполняет операции над выборками сигнала, изменяя их амплитуду и частоту (рис. 4.7). При этом генерируемое WT-методом звучание ближе к звуку реальных инструментов, нежели при FM-технологии. Дополнительную гибкость WT-методу дает возможность простого изменения таблиц выборок; многие карты поддерживают как FM- так и WT-синтез.
Файлы для генерации звука посредством FM-технологии имеют расширение MID (от MIDI - Musical Digital Interface, совместимым форматом является RMI) и содержат ссылки на ноты (кодируемые числами), их длительность и тип музыкального инструмента (до 200 инструментов в современных картах). MID-файлы естественным образом могут быть воспроизведены и на поддерживающих WT-синтез звуковых картах.


Рис. 3.7. К описанию технологии WT-синтеза звука


Рис. 3.8. Типовое подключение внешних устройств к звуковой карте IBM PC

3.2. Методы сжатия информации при работе со звуком

Чем более объем памяти WT-карты, тем реалистичнее звучание (ибо в памяти хранится больше образцов, записанных с более высоким разрешением). Стандарт General MIDI описывает более 200 инструментов, для хранения образцов их звучания (таблиц) требуется не менее 8 Мбайт памяти (минимум 20 Кбайт для каждого образца).
Известен WF-метод (Wave Form) генерации звучания, основанный на преобразовании звуков в сложные математические формулы и дальнейшем применения этих формул для управления мощным процессором с целью воспроизведения звука; от WF-синтеза ожидают еще лучшей (относительно FM и WT-технологий) реальности звучания музыкальных инструментов при ограниченных объемах звуковых файлов .
Типовая схема подключения внешних устройств к IBM PC-ориентированной звуковой плате (карте) приведена на рис. 4.8.
Для сокращения потока данных используются иные (отличные от PCM) методы кодирования аналогового сигнала. Например, известна существенно сокращающая объем хранимых данных техника кодирования, основанная на известных характеристиках аналогового сигнала; при т.н. -кодировании аналоговый сигнал преобразуется в цифровой код, определяемый логарифмом величины сигнала (а не его линейным преобразованием). Недостаток метода - необходимость иметь априорную информацию о характеристиках исходного сигнала.
Известны методы преобразования, не требующие априорной информации об исходном сигнале. При дифференциальной импульсно-кодовой модуляции (DPCM, Differential Pulse Code Modulation) сохраняется только разность между текущим и предшествующим уровнями сигнала (разница требует для цифрового представления меньшего количества бит, чем полная величина амплитуды). При дельта-модуляции (DM, Delta Modulation) каждая выборка состоит всего из одного бита, определяющего знак изменения исходного сигнала (увеличение или уменьшение); дельта-модуляция требует повышенной частоты сэмплинга. Технологии дифференциальной импульсно-кодовой модуляции связаны с накапливающейся со временем ошибкой, поэтому применяются специальные меры периодической калибровки АЦП.
Наибольшее распространение при записи звука получила адаптивная импульсно-кодовая модуляция (ADPCM, Adaptive Pulse Code Modulation), использующая 8- или 4-разрядное кодирование для разности сигналов. Технология впервые была применена фирмой Creative Labs и обеспечивает сжатие данных до 4:1.
Однако часто применяются иные (программные) методы сжатия/распаковки аудиоинформации; среди них в последнее время наиболее популярен формат MP3, разработанный институтом Fraunhofer IIS (Fraunhofer Institutе Integrierte Schaltungen, www.iis.fhg.de) и фирмой THOMSON (полная спецификация формата MP3 опубликованы на сайте www.mp3tech.org). Полное название стандарта MP3 звучит MPEG-Audio Layer-3 (где MPEG суть Moving Picture Expert Group, не путать с предназначенным для использовании в телевидении высокой четкости стандартом MPEG-3).
MP3-кодирование данных происходит посредством выделения независимых отдельных блоков данных - фреймов. Для этого исходный сигнал при кодировании разбивается на равные по продолжительности участки, именуемые фреймами и кодируемые отдельно (для дополнительного снижения объема данных применяется сжатие с применением алгоритма Хеффмена); при декодировании сигнал формируется из последовательности декодированных фреймов. Процесс кодирования требует ощутимого времени, декодирование (при воспроизведении) осуществляется ‘на лету’.
MP3-формат обеспечивает наилучшее качество звука при минимальном объеме файла. Это достигается учетом особенностей человеческого слуха, в том числе эффекта маскирования слабого сигнала одного диапазона частот более мощным сигналом соседнего диапазона (когда он имеет место) или мощным сигналом предыдущего фрейма, вызывающего временное понижение чувствительности уха к сигналу текущего фрейма (проще говоря, удаляются второстепенные звуки, которые не слышатся человеческим ухом из-за наличия в данный/предыдущий момент другого - более громкого звука). Также учитывается неспособность большинства людей различать сигналы, по мощности лежащие ниже определенного уровня, разного для разных частотных диапазонов. Этот процесс называется адаптивным кодированием и позволяет экономить на наименее значимых с точки зрения восприятия человеком деталях звучания. Степень сжатия (следовательно и качество), определяются не форматом MP3, а шириной потока данных при кодировании.
Аудиоинфоpмация, сжатая по такой технологии, может передаваться потоком (streaming), а может храниться в файлах формата MP3 или WAV-MP3. Отличие второго от первого состоит в наличии дополнительного заголовка WAV-файла, что позволяет при наличии MP3 - кодека (codec, кодер и декодер в комплексном исполнении) в системе использовать для работы с таким файлом стандартные средства Windows. Параметры компрессии при кодировании файла можно варьировать в широких пределах. Качество, неотличимое большинством рядовых слушателей от качества CD, достигается при скорости передачи (bitrate, битрейт) 112-128 Кбайт в секунду; при этом сжатие составляет примерно 14:1 относительно исходного объема. Специалисты обычно требуют скорости передачи 256-320 Кбайт/сек (это соответствует всего лишь двойной скорости CD-проигрывателя, но для большинства отечественных InterNet - линий недоступна).
Принципиальной особенностью MPEG-кодирования (как видео-, так и аудиоинформации) является компрессия с потерями. После упаковки и распаковки звукового файла методом MP3 результат не идентичен оригиналу ‘бит в бит’. Напротив, упаковка целенаправленно исключает из упаковываемого сигнала несущественные компоненты, что и приводит к чрезвычайному возрастанию коэффициента сжатия (сжатие до 96:1 при качестве телефонного канала).
Для MP3 также написано множество удобного программного обеспечения. Налажено производство аппаратных (карманных и автомобильных) MP3 плееров (MP3 поддерживает до 5 каналов).
На рубеже 1998-1999 г. фирма XingTech (www.xingtech.com) первая использовала технологию переменного битрейта (VBR, Variable Bite Rate). В случае VBR задается максимальный допустимый уровень потерь, а кодер выбирает минимальный битрейт, достаточный для выполнения поставленной задачи. Стоящие рядом в конечном потоке фреймы могут оказаться в итоге закодированными с разными параметрами.
По расчетам специалистов MP3 останется актуальным в ближайшее десятилетие (даже несмотря на существование форматов AAG и VQF и продвигаемого MS формата WMA). О существовании иных кодеров (преобразователей информации из одного формата в другой) см. www.sulaco.org/mp3/free.html и www.xiph.org.
Возможным конкурентом MP3 в (не столь близком) будущем может стать формат MPEG-4 (точнее, его аудиокомпонента), основанный на объектном подходе к звуковым сценам (язык BIFS позволяет располагать источники звука в трехмерном пространстве сцены, управлять их характеристиками и применять к ним эффекты независимо друг от друга и т.д., в следующих версиях предполагается добавление возможности задания акустических параметров среды).
Для кодирования аудиообъектов MPEG-4 предлагает наборы инструментов как для ‘живых’ звуков, так и для синтезированных. MPEG-4 устанавливает синтаксис двоичных потоков и процесс декодирования в терминах наборов инструментов, что позволяет применять различные алгоритмы сжатия. Диапазон предлагаемых стандартом скоростей потока для кодирования живых звуков - от 2 до 128 Кбайт/сек и выше. При кодировании с переменным потоком минимальная средняя скорость может оказаться еще меньше (порядка 1,2 Кбайт/сек). Для звука высшего качества применяется алгоритм AAC, который дает качество лучше, чем у CD при потоке в 10 с лишним раз меньше. Другой возможный алгоритм кодирования живого звука - TwinVQ. Для кодирования речи предлагаются алгоритмы HVXC (Harmonic Vector eXcitation Coding) для скоростей потока 2-4 Кбайт/сек и CELP (Code Excited Linear Predictive) для скоростей 4-24 Кбайт/сек.
MPEG-4 предполагает возможность синтеза речи. На входы синтезатора поступает проговариваемый текст, а также различные параметры ‘окраски’ голоса - ударения, изменения высоты тона, скорости произнесения фонем и т. п. Можно также задать для ‘говорящего’ пол, возраст, акцент и др. В текст можно вставлять управляющую информацию, обнаружив которую синтезатор синхронно с произнесением соответствующей фонемы передаст параметры или команды другим компонентам системы (например, параллельно с голосом может генерироваться поток параметров для анимации лица). Как и всегда, MPEG-4 задает правила работы, интерфейс синтезатора, но не его внутреннее устройство.
Интересная часть ‘звуковой’ составляющей - средства синтеза произвольных звуков и музыки. MPEG-4 предлагает в качестве стандарта подход, разработанный в колыбели многих передовых технологий - MIT Media Lab. и названный SA (Structured Audio, Структурированный Звук). Это не конкретный метод синтеза, а формат описания методов синтеза, в котором можно задать любой из существующих методов (а также, как утверждается, будущих). Для этого предлагаются два языка - SAOL (Structured Audio Orchestra Language) и SASL (Structured Audio Score Language). Первый задает оркестр, а второй - то, что этот оркестр должен играть. Оркестр состоит из инструментов, каждый инструмент представлен сетью элементов цифровой обработки сигналов - синтезаторов, цифровых фильтров, которые все вместе и синтезируют нужный звук. С помощью SAOL можно запрограммировать практически любой нужный инструмент, природный или искусственный звук. Сначала в декодер загружается набор инструментов, а затем поток данных SASL заставляет этот оркестр играть, управляя процессом синтеза; таким образом обеспечивается одинаковое звучание на всех декодерах при очень низком входном потоке и высокой точности управления. С появлением MPEG-4 фактически обретает более реальные и понятные очертания идея ITV (Interactive TeleVision, Интерактивное Телевидение), о котором спорят уже несколько лет и под которым каждый понимает нечто свое (от простого ‘видео-по-запросу’ до детективов с многовариантным развитием сюжета и участием зрителя).
Данные о MPEG-4 приведены в основном для информации о современных тенденциях записи и синтеза медиаданных, интересующихся отсылаем к cselt.it/mpeg и www.mpeg.org. В конце 2000 году группа разработчиков MPEG планировала объявить об окончании работы над стандартом MPEG-7 (официальное название - Multimedia Content Description Interface).

Категория: Предметы | Просмотров: 647 | Добавил: Shamaj | Рейтинг: 0.0/0


Всего комментариев: 0
Добавлять комментарии могут только зарегистрированные пользователи.
[ Регистрация | Вход ]