ATRAC: Адаптивное Преобразовательное Акустическое Кодирование для MiniDisc

Источник: http://www.minidisc.org/aes_atrac.html

Kyoya Tsutsui
Hiroshi Suzuki
Osamu Shimoyoshi
Mito Sonohara
Kenzo Akagiri
Robert M. Heddle

Корпоративные Научно-Исследовательские Лаборатории Sony
6-7-35 Kitashinagawa, Shinagawa-ku, Токио 141 Япония

Переиздана из 93-й Конвенции Audio Engineering Society в Сан-Франциско, 1992 1-4 октября

Краткий обзор

ATRAC – система аудиокодирования на основе психоакустических принципов. Входной сигнал разделен на три поддиапазона, которые тогда преобразованы в частотную область, используя переменную длину блока. Преобразованные коэффициенты сгруппированы в неравномерных диапазонов для отражения человеческой слуховой системы, а затем квантуется на основе динамических характеристик чувствительности и маскирование. ATRAC сжимает аудио компакт-диска до приблизительно 1/5 исходной скорости передачи данных с фактически никакой потерей в качестве звука.

1.  Введение

Недавно, был увеличивающийся потребительский спрос на переносимое записываемое высококачественное цифровое аудио носители. Система MiniDisc была разработана, чтобы удовлетворить этому требованию. MiniDisc основывается на 64-миллиметровом оптическом или магнитооптическом диске, который имеет приблизительно 1/5 мощности хранения данных стандартного компакт-диска. Несмотря на уменьшенную емкость хранения, было необходимо, чтобы MiniDisc поддержали высокое качество звука и время игры 74 минут. ATRAC (Адаптивное Преобразовательное Акустическое Кодирование) система сжатия данных был для этого разработан, чтобы соответствовать следующим критериям:

  • Сжатие 16-разрядного аудио стерео на 44.1 кГц в меньше, чем 1/5 исходной скорости передачи данных с минимальным сокращением качества звука.
  • Простая и недорогая аппаратная реализация, подходящая для портативных плееров и устройств записи.

Когда данные цифрового аудио сжаты, обычно есть определенное количество шума квантования, введенного в сигнал. Цель многих систем аудиокодирования [1-6] состоит в том, чтобы управлять частотным распределением времени этого шума таким способом как, чтобы представить его неслышимый к человеческому уху. Если это будет абсолютно успешно, восстановленный сигнал будет неотличим от оригинала.

В целом аудио кодеры работают, анализируя сигнал в ряд модулей, каждый соответствующий определенному диапазону своевременно и частоте. Используя это частотное распределение времени, сигнал проанализирован согласно психоакустическим принципам. Этот анализ указывает, какие модули критически важны и должны быть кодированы с высокой точностью, и какие модули менее чувствительны и могут терпеть некоторый шум квантования, не ухудшая воспринятое качество звука. На основе этой информации доступные биты выделены модулям частоты времени. Спектральные коэффициенты в каждом модуле тогда квантованы, используя выделенные биты. В декодере квантованные спектры восстановлены согласно разрядному выделению и затем синтезированы в аудиосигнал.

Система ATRAC работает как выше с несколькими улучшениями. ATRAC использует психоакустику не только в разрядном алгоритме выделения, но также и в разделении частоты времени. Используя комбинацию кодирования поддиапазона и преобразовывают методы кодирования, входной сигнал проанализирован в неоднородных подразделениях частоты, которые подчеркивают важные области низкой частоты. Кроме того, ATRAC использует длину блока преобразования, которая адаптируется к входному сигналу. Это гарантирует эффективное кодирование стационарных проходов, не жертвуя разрешением времени во время переходных проходов.

Эта бумага начинает с анализа соответствующих психоакустических принципов. Кодер ATRAC тогда описан с точки зрения разделения частоты времени, квантования спектральных коэффициентов, и кусает выделение. Наконец, декодер ATRAC описан.

2.  Психоакустики

2.1 Кривые Equi-громкости

Чувствительность уха меняется в зависимости от частоты. Ухо является самым чувствительным к частотам в районе 4 кГц; уровни звукового давления, которые просто обнаруживаемы на уровне 4 кГц, не обнаруживаемы на других частотах. В целом два тона равного питания, но различной частоты не будут звучать одинаково громкими. Воспринятая громкость звука может быть выражена в сонах, где 1 сон определен как громкость тона на 40 дБ на уровне 1 кГц. Кривая, обозначенная “порог слышимости в тишине” указывает на минимальный уровень (по определению, 0 cоне), при которой ухо может обнаруживать тональный сигнал на заданной частоте.

Эти кривые указывают, что ухо более чувствительно на некоторых частотах, чем это в других. Искажение на нечувствительных частотах будет менее слышимым, чем на чувствительных частотах.

2.2 Маскирование

Маскирование [7] происходит, когда один звук представлен неслышимый другим. Одновременное маскирование происходит, когда два звука происходят одновременно, такой как тогда, когда разговор (сигнал в маскирование) представлен неслышимый проходящим мимо поездом (маскировшик). Обратное маскирование происходит, когда сигнал в маске заканчивается, прежде чем маскировшик начинается; прямое маскирование происходит, когда сигнал в маске начинается после того, как маскировшик закончился.

Маскирование становится более сильным, поскольку два звука становятся ближе вместе и во время и в частоту. Например, одновременное маскирование более сильно или, чем прямое или, чем обратное маскирование, потому что звуки происходят одновременно. Маскирующие эксперименты обычно выполняются при помощи узкой диапазоны белого шума как сигнал маскирования и измерение справедливо-слышимого уровня чистого тона неоднократно и частот. Примеры одновременного маскирования и временного маскирования показаны в рисунке 2 и рисунке 3 соответственно.

Важные выводы могут быть сделаны из этих графиков. Во-первых, одновременное маскирование более эффективное, когда частота сигнала в маске равна или выше, чем тот из masker. Во-вторых, в то время как прямое маскирование эффективное в течение долгого времени после того, как masker остановился, назад маскирование может только быть эффективным меньше чем для 2 или 3 мс перед началом masker.

2.3 Критические Диапазоны

Критические диапазоны [7] явились результатом идеи, что ухо анализирует слышимый частотный диапазон, используя ряд поддиапазонов. Частоты в критической диапазоне подобны с точки зрения восприятия уха и обработаны отдельно от других критических диапазон. Критические диапазоны возникли естественно из экспериментов в человеческом слухе и могут также быть получены из распределения сенсорных нейронов во внутреннем ухе. Критические диапазоны могут считаться шкалой частот, используемой ухом [8].

Критический масштаб диапазоны показан в Таблице 1. Это четкое, что критические диапазоны намного более узкие на более низких частотах, чем в высоких частотах; на самом деле три четверти критических диапазон расположены ниже 5 кГц. Это указывает, что ухо получает больше информации от низких частот и меньше от более высоких частот.

 

Таблица 1: Дискретные критические диапазоны [7]
Критически важный
Диапазоны
Частота (Гц) Критически важный
Диапазоны
Частота (Гц)
Низко Высоко Ширина Низко Высоко Ширина
0 0 100 100 13 2000 2320 320
1 100 200 100 14 2320 2700 380
2 200 300 100 15 2700 3150 450
3 300 400 100 16 3150 3700 550
4 400 510 110 17 3700 4400 700
5 510 630 120 18 4400 5300 900
6 630 770 140 19 5300 6400 1100
7 770 920 150 20 6400 7700 1300
8 920 1080 160 21 7700 9500 1800
9 1080 1270 190 22 9500 12000 2500
10 1270 1480 210 23 12000 15500 3500
11 1480 1720 240 24 15500 22050 6550
12 1720 2000 280        

 

3  ATRAC Кодер 

Блок-схема структуры кодера показана в рисунке 4. У кодера есть три компонента. Аналитический блок анализирует сигнал в спектральные коэффициенты, сгруппированных в Блок Плавучие элементы (BFU’s – Block Floating units). Разрядный блок выделения делит доступные биты между BFU’s, выделяя меньше битов нечувствительным модулям. Блок квантования квантует каждый спектральный коэффициент к указанной длины слова.

3.1 Частотный анализ времени

Этот блок (рисунок 6) генерирует BFU’s на трех шагах, комбинируя методы от кодирования поддиапазона, и преобразуйте кодирование. Во-первых, сигнал разломан на три поддиапазона: 0-5.5 кГц, 5.5-11 кГц и 11-22 кГц. Каждый из этих поддиапазонов тогда преобразован в частотную область, произведя ряд спектральных коэффициентов. Наконец, эти спектральные коэффициенты сгруппированы неоднородно в BFU’s.

Разложение поддиапазона выполняется, используя Квадратурные Фильтры Зеркала (QMF’s – Quadrature Mirror Filters) [0-10]. Входной сигнал разделен на верхние и более низкие диапазоны частот первым QMF, и более низкая диапазон частот разделена снова вторым QMF. Использование QMF’s гарантирует, что искажение временного интервала, вызванное разложением поддиапазона, будет отменено во время реконструкции.

Каждый из этих трех поддиапазонов тогда преобразован в частотную область, используя Модифицированное Дискретное Косинусное Преобразование (MDCT – Modified Discrete Cosine Transform) [11-12]. MDCT позволяет 50%-е перекрытие между окнами временного интервала, ведя к улучшенной разрешающей способности по частоте при поддержании критической выборки. Вместо фиксированной длины блока преобразования, однако, ATRAC выбирает длину блока адаптивно на основе сигнальных характеристик в каждой диапазоне. Есть два режима: длинный режим (11.6 мс) и короткий режим (1.45 мс в высокочастотной диапазоне, 2.9 мс в других). Обычно длинный режим используется, чтобы обеспечить хорошую разрешающую способность по частоте. Однако проблемы могут произойти во время частей атаки сигнала. В частности шум квантования распространен по всему сигнальному блоку, и начальный шум квантования не замаскирован (рисунок 8a); эту проблему вызывают предварительным эхом. Чтобы предотвратить предварительное эхо, ATRAC переключается на короткий режим (рисунок 8b), когда это обнаруживает сигнал атаки. В этом случае, потому что есть только короткий сегмент шума, прежде чем атака, шум будет замаскирован обратным маскированием (разделите 2.2). Обратное маскирование не эффективное для длинного Режима из-за его очень короткой продолжительности. Таким образом ATRAC достигает эффективного кодирования в стационарных областях при ответе на быстро переходные проходы.

Обратите внимание на то, что короткий режим не необходим для сигнального затухания, потому что шум квантования будет замаскирован прямым маскированием, которое длится намного дольше, чем обратное маскирование. Для максимальной гибкости режим размера блока может быть выбран независимо для каждой диапазоны.

Спектральные коэффициенты MDCT тогда сгруппированы в BFU’s. Каждый модуль содержит постоянное число коэффициентов. В случае длинного режима модули отражают 11.6 мс узкой диапазоны частот; в случае короткого режима каждый блок отражает более короткое время, но более широкую диапазону частот (рисунок 9). Обратите внимание на то, что концентрация BFU’s больше в низких частотах, чем в высоких частотах; это отражает психоакустические характеристики человеческого уха.

3.2 Спектральное квантование

Спектральные значения квантованы, используя два параметра: длина слова и масштабный коэффициент. Масштабный коэффициент определяет диапазон полномасштабный квантования, и длина слова определяет точность в том масштабе. У каждого BFU есть та же длина слова и масштабный коэффициент, отражая психоакустическое подобие сгруппированных частот.

Масштабный коэффициент выбран из фиксированного списка возможностей и отражает величину спектральных коэффициентов в каждом BFU. Длина слова определена разрядным алгоритмом выделения (разделите 3.3).

Для каждого звукового фрейма (соответствующий 512 точкам ввода), следующая информация хранится в диске:

  • Режим размера блока MDCT (длинный или короткий).
  • Данные длина слова для каждого Блока Плавучего элемента.
  • Код масштабного коэффициента для каждого Блока Плавучeго элемента.
  • Квантованные спектральные коэффициенты.

Чтобы гарантировать точную реконструкцию входного сигнала, критические данные, такие как способ размера блока, длина слова и данные о коэффициенте пропорциональности могут храниться избыточно. Информация о количествах избыточных данных также хранится на диске.

3.3 Разрядное выделение

Разрядный алгоритм выделения делит доступные биты данных между различным BFU’s. У модулей с большим количеством битов будет мало шума квантования; у модулей с немногими или никакими битами будут значительные количества шума. По хорошему качеству звука разрядный алгоритм выделения должен гарантировать, чтобы у критических модулей были достаточные биты, и что шум в некритических модулях не перцепционно значительный.

ATRAC не определяет немного алгоритма выделения; любой надлежащий алгоритм может использоваться. Длина слова каждого BFU сохранена на MiniDisc наряду с квантовавшими спектрами, таким образом, декодер абсолютно независим от алгоритма распределения. Это предусматривает эволюционное улучшение кодера, не изменяя формат MiniDisc или декодер.

Есть много возможных алгоритмов, в пределах от очень простого к чрезвычайно сложному. Для переносимых устройств записи MiniDisc, однако, возможности ограничены несколько тем, что они должны быть реализованы на недорогостоящей низкой мощности компактные аппаратные средства. Тем не менее, ATRAC способен к хорошему качеству звука, использующему даже простой разрядный алгоритм выделения, если это обоснованно основано на психоакустических принципах. Неоднородная адаптивная структура частоты времени ATRAC уже основана на психоакустике, уменьшая давление на разрядный алгоритм выделения.

Один предложенный алгоритм использует комбинацию фиксированных и переменных битов. Фиксированные биты подчеркивают важные области низкой частоты, выделяя меньше битов BFU’s в более высоких частотах. Переменные биты выделены согласно логарифму спектральных коэффициентов в каждом BFU. Общее разрядное выделение btot является взвешенной суммой фиксированных битов bfix(k) и переменных битов bvar(k). Таким образом, для каждого BFU k,

btot(k) = Tbvar + (1-T)bfix

Вес T является мерой тональности сигнала, принимая значение близко к 1 для чистых тонов, и близко к 0 для белого шума. Это означает, что пропорция фиксированных и переменных битов самостоятельно переменная. Таким образом, для чистых тонов, доступные биты будут сконцентрированы в небольшом количестве BFU’s. Для большего количества подобных шуму сигналов алгоритм подчеркнет фиксированные биты, чтобы сократить количество битов, выделенных нечувствительным высоким частотам.

Вышеупомянутое уравнение не касается полной скорости передачи и в целом выделит больше битов, чем доступны. Чтобы гарантировать фиксированную скорость передачи данных, задсмещения (то же для всего BFU’s) вычислен. Это значение вычтено из btot (k) для каждого модуля, дав заключительное разрядное выделение b (k):

b(k) = integer{btot(k)-boff}

Если в результате вычитания отрицательную длину слова, BFU выделяется 0 бит. Этот алгоритм проиллюстрирован в рисунке 10.

4  ATRAC Декодер

Блок-схема структуры декодера показана в рисунке 5. Декодер сначала восстанавливает спектральные коэффициенты MDCT от квантовавших ценностей, используя длину слова и параметры коэффициента пропорциональности. Эти спектральные коэффициенты тогда используются, чтобы восстановить исходный аудиосигнал (рисунок 7). Коэффициенты сначала преобразованы назад во временной интервал инверсией MDCT (IMDCT) использующий или длинный режим или короткий режим, как определено в параметрах. Наконец, три сигнала временного интервала синтезируются в выходной сигнал фильтрами синтеза QMF.

5 Заключений

Через комбинацию различных методов включая психоакустику, кодирование поддиапазона и преобразовывают кодирование, ATRAC преуспевает в том, чтобы кодировать цифровое аудио с фактически никаким перцепционным ухудшением в качестве звука. Аудирование указывает, что различие между звуком ATRAC и первоисточником не перцепционно раздражающее, и при этом это не уменьшает качество звука. Кроме того, система достаточно компактна, чтобы быть установленной в переносимых потребительских товарах. Используя ATRAC, MiniDisc предоставляет практическое решение для переносимого цифрового аудио.

6 Использованная Литература

  1. MPEG/AUDIO CA11172-3, 1992.
  2. “ASPEC (Source: AT&T Bell Labs et al. )” Doc. No. 89/205, ISO-IEC JTC1/SC2/WG8 MPEG-AUDIO, Oct. 18, 1989.
  3. R. Veldhuis, M. Breeuwer and R. van der Wall, “Subband coding of digital audio signals without loss of quality,” Proc. 1989 International Conference on Acoustics, Speech and Signal Processing, Glasgow, pp. 2009-2012.
  4. A. Sugiyama, F. Hazu, M. Iwadare and T. Nishitani, “Adaptive transform coding with an adaptive block size (ATCABS),” Proc. 1990 International Conference on Acoustics, Speech and Signal Processing,Albuquerque, pp. 1093-1096.
  5. G. Davidson, L. Fielder and M. Antill, “High-quality audio transform coding at 128 kbits/s,” Proc. 1990 International Conference on Acoustics, Speech and Signal Processing, Albuquerque, pp. 1117-1120.
  6. G. Davidon, L. Fielder and M. Antill, “Low-complexity transform coder for satellite link applications,” Audio Engineering Society 89th Convention preprint 2966, Sept. 1990.
  7. J. S. Tobias, Ed., Foundations of Modern Auditory Theory, Vol. 1, Academic Press, New York, 1970.
  8. E. Zwicker and U. T. Zwicker, “Audio engineering and psychoacoustics: Matching signals to the final receiver, the human auditory system.” J. Audio Engineering Society, Vol. 39 No. 3, pp. 115-126, March 1991.
  9. D. Estaban, and C. Galand, “Application of quadrature mirror filters to split band voice coding schemes,” Proc. 1977 IEEE International Conference on Acoustics, Speech and Signal Processing, Hartford CT, pp. 191-195.
  10. P. P. Vaidyanathan, “Quadrature mirror filter banks, M-band extensions and perfect-reconstruction techniques,” IEEE ASSP Magazine, Vol. 4, pp. 4-20, July 1987.
  11. J. Princen and A. Bradley. “Analysis/synthesis filter band design based on time-domain aliasing cancellation,” IEEE Trans. Acoustics, Speech and Signal Processing, Vol. 34, pp. 1153-1161, 1986.
  12. J. Princen, A. Johnson and A. Bradley, “Subband/transform coding using filter band designs based on time domain aliasing cancellation,” Proc. 1987 IEEE International conference on Acoustics, Speech and Signal Processing, Dallas, pp. 2161-2164.

Leave a Reply