Calidad de audio en ntros MP3

Iniciado por EupHoriA_V, 16 de Marzo de 2008, 04:00:06 PM

Tema anterior - Siguiente tema

0 Usuarios y 1 Visitante están viendo este tema.

EupHoriA_V

   Os dejo este copy-paste sobre la compresión, la pérdida de calidad de audio y como se controlan los estándares de "calidad cd". Genial.

El artículo original lo podéis encontrar aquí:

http://www.faq-mac.com/noticias/node/26356

Radiohead ha publicado su último álbum de forma poco habitual: In Rainbows se puede adquirir... por el precio que quieras. Desde un mínimo de un céntimo de libra, más otros 45 céntimos de libra por el coste de la transacción con la tarjeta de crédito (lo que vendría a ser unos 70 céntimos de Euro en total), hasta lo que quieras pagar por música comprimida en MP3 a 160 Kbps.




Recordemos que la iTunes Store proporciona música con DRM a 128 Kbps en formato AAC, más o menos comparable en calidad a los Mp3 de 160 Kbps, y se venden a 99 céntimos por canción con DRM, o a 1,20 céntimos sin DRM a 256 Kbps, de modo que el álbum de Radiohead se vendería por 9,90 (o 12,00 en iTunes Plus), porque contiene exactamente 10 canciones, de modo que uno podría pensar que los aficionados paguen entre 0,70 y 9,90 Euros por el álbum, mientras que los auténticos fans podrían incluso pagar más, como tributo a la banda, aunque es más probable que se dedican por la versión tangible, que incluye dos discos de vinilo, dos CDs... y de paso la descarga en MP3 para no tener que esperar, todo ello por 40£ (60€). Eso sí, es razonable pensar que el coste medio que se pagará estará en torno a 1 Euro por el álbum en caso de sólo descarga, que habría después que modular con las ventas _físicas_.

Sin embargo, siendo notable el hecho de que una banda puntera como Radiohead distribuya su nuevo álbum de forma independiente a las discográficas, y también a las tiendas online como iTunes Store, o la británica 7digital, y además con un esquema de precio totalmente libre, lo que sin duda marcará un futuro en el que los artistas comenzarán a ver que existe vida fuera de las compañías discográficas, la razón de escribir este artículo está en lo que he leído en una de las crónicas sobre este lanzamiento, destacada por Google News:

*El Universal (Venezuela):* La decena de MP3 fueron montadas en 160 kilobites [sic] por segundo, libres de DRM (Digital Rights Management). Algunos fans han cuestionado la baja calidad del formato: un CD tiene 192 Kbps.

¿Qué es eso de que un CD tiene 192Kbps? Cualquiera que haya pasado una canción en formato puro CD (con formatos sin compresión como AIFF o WAVE), sabe que la información que hay en el CD es de 1500 Kbps, o lo que es lo mismo, 1,5 Mbps (Megabits por segundo): si quisiéramos pasar sonido por Internet sin cortes, con la *calidad original* que contiene un CD de audio, sería necesaria una conexión de 1,5Mbit por segundo. Esa es la razón principal por la que surgieron los formatos de audio comprimidos como Mp3 y AAC: permitir el transporte y el almacenamiento de música y sonido de forma eficiente, por canales banda estrecha, o en dispositivos de poca memoria, respetando al máximo posible la calidad original, pero sin mantenerla.

Compresión de audio
Las primeras técnicas de compresión de audio (en cuanto a minimización de tamaño de almacenamiento o transmisión; no confundir con las técnicas de compresión de audio referidas al rango dinámico) se utilizaron cuando se comenzaron a digitalizar las conversaciones telefónicas, para pasar de centralitas analógicas a centralitas digitales. El sonido telefónico, hasta entonces, utilizaba un ancho de banda de unos 4KHz (4000 cambios por segundo). Puesto que una señal analógica que contiene componentes desde _0_ a _f_ cambios por segundo tiene que muestrearse al menos a una frecuencia _2·f_, y como necesitamos unos 256 escalones para poder diferenciar bien los cambios de volumen, las conversaciones necesitaban 8 bits por muestra, con 8 mil muestras por segundo, por un solo canal, o lo que es lo mismo, 64000 muestras por segundo. Esta cifra, 64Kbps, resultará familiar a quienes contasen con líneas RDSI (Red Digital de Servicios Integrados), porque es exactamente la capacidad de datos de la línea.

Sin embargo, hasta ahora, no hemos comprimido nada: sólo hemos digitalizado una señal analógica con calidad adecuada para mantener la calidad de sonido existente en la señal original, pero seguimos utilizando para transmitir tantos bits como estamos codificando.

Para comprimir audio, una de las primeras técnicas que se pueden utilizar es darse cuenta de que aunque es muy difícil que los datos de una muestra se repitan (ver imagen, la diferencia de una muestra a la siguiente sí suele tener valores parecidos). Codificar estas diferencias entre valores, en lugar de los valores en sí, permite que después se puedan aplicar algoritmos genéricos de compresión con cierto éxito. Es por ejemplo el caso del algoritmo de compresión Apple Lossless, o de FLAC.



Señal de audio muestreada; nótese que los valores apenas se repiten, pero las diferencias sí.

Si estamos hablando de voz humana, en lugar de cualquier sonido arbitrario, podemos modelar la voz clasificando un trozo de sonido: si usa las cuerdas vocales será sonoro, y se puede caracterizar por un tono fundamental, más un filtro que hacemos con la boca, y en el caso de los segmentos sordos (sonidos que no usan las cuerdas vocales, como el siseo de la letra ese) los representamos por un ruido blanco, más otro filtro. Comparando el sonido con la predicción que obtenemos de calcular los filtros, se puede reducir el sonido al tono fundamental (codificado como 0 si el segmento es sordo), más los coeficientes que caracterizan los filtros. En esas condiciones, es posible codificar voz con 13 Kbps con buena calidad, y con hasta 4 Kbps con capacidad de entender la voz hablada. Los 13 Kbps son la tasa de bits utilizada actualmente por el codificador CELP —basado en los principios que hemos comentado— que utilizan los teléfonos GSM. Pero aquí ya empezamos a hablar de compresión de audio con pérdida.

Compresión de audio con pérdida, psicoacústica, y pruebas audiométricas subjetivas
¿Qué es eso de compresión de audio con pérdida? Se trata de sistemas de compresión en los que la señal que se reconstruye no es exactamente igual a la señal que se muestreó, pero se parece lo suficiente como para poder ser útil. Si vemos las compresiones de las que hemos estado hablando, para mantener un sonido aceptable, similar al de una línea telefónica convencional, no comprimíamos más allá de un factor 5. Aplicando esto al audio con la calidad original de CD, hablamos de pasar de 1500 Kbps a pasar unos 300 Kbps. ¿Cómo podemos llegar a comprimir la música entre 256 Kbps y 128 Kbps y que se pueda hablar aún de calidad CD?

Se logra estudiando la forma en que percibimos los sonidos. En concreto, en la audición se producen varios fenómenos, que podemos resumir en la siguiente lista:

Sonidos de la misma energía se perciben de forma diferente según la frecuencia. Percibimos más volumen en un tono alrededor de los 1.000 Hz, que para un tono de la misma amplitud de 10.000 Hz.
Cuando hay sonidos de frecuencia cercana, cuesta tanto más distinguirlos cuanto mayor sea la diferencia de energía. En concreto, si escuchamos dos tonos, uno de 1.000 Hz, y otro de 1.010&nbps;Hz, necesitamos que el más débil sea casi igual
que el más fuerte para percibirlo. En cambio, si

Respuesta logarítmica: para el oido, las diferencia de energía sonora entre señales tiene que ser proporcional para escucharse. Dicho de otra forma, usamos un grano más fino para distinguir las señales débiles, y un grano más grueso para las señales fuertes. Pero eso también pasa en frecuencia: distinguimos mucho mejor entre dos bajas frecuencias que entre dos altas frecuencias.
No linealidad: la respuesta a los estímulos no es la misma conforme sube el volumen promedio de la señal: estímulos que resultan audibles en una fase de silencio, pasan a no ser audibles si se amplifica tanto la señal dominante como el estímulo más débil en la misma proporción. Esto está relacionado con la tensión existente en los huesecillos del oído medio, que actúan así para evitar daños en el oído interno.
Confusión y apantallamiento temporal: cuando hay dos sucesos muy cercanos en el tiempo, el cerebro no puede distinguirlos. Pero si uno de ellos es mucho más fuerte que el otro, el segundo suceso no llega a registrarse.
Con todos estos ingredientes, y un análisis en frecuencia de las señales, comienza a ser posible distinguir cuáles serán las componentes que se podrán eliminar, y aquellas para las que no merece la pena tratarlas en mucho detalle, por lo que se puede reducir el número de bits necesarios para la compresión. En cierto modo, es como si se _resintetizara_ una señal parecida a la original.

Ahora bien, ¿cómo sabemos cuán audible, o cuán similar a la grabación original, es esa señal _resintetizada_? No hay más remedio que recurrir a humanos para que evalúen si la señal se puede entender o no, y si les parece mejor o peor que otras señales similares. Esas pruebas se llaman test de audición subjetiva, y proporcionan una puntuación conocida comoMean Opinion Score, o puntuación por opinión media.

Suelen consistir en exponer a un conjunto amplio de personas, que actúan como sujetos de prueba, y que incluyen personas con audiciones de todo tipo —desde personas con sordera a personas audición muy fina—, que puntúan segmentos originales y comprimidos, y segmentos comprimidos entre sí, sin que se les identifique previamente la calidad o el códec utilizado. Se establecen medias de puntuación para cada uno de los códecs y tasas de bits. Estos tests son habitualmente del tipo doble ciego, y ordenados por ordenador, para que la forma del experimento no influya al sujeto de test a favorecer un códec determinado.

A la hora de comparar formatos con pérdida, como MP3 o AAC, con los CDs de audio, lo que ocurre es que llega un momento en que o bien la puntuación media de los MP3 a una tasa de bits dada se encuentra dentro del margen de error de la puntuación dada al CD, si se trata de tests de opinión, o bien la cantidad de gente que elige MP3 o CDs está dividida al 50%, por lo que a esa velocidad se le denominaría calidad CD.

Puesto que los tests se realizan en condiciones diferentes cada vez, y los códecs a veces se pueden ajustar para que favorezcan cierto tipo de sonidos, mientras que pueden resultar peores para otros, se ha llegado a determinar que para el oído promedio, los archivos MP3 son de _calidad CD_ en torno a 192 Kbps-320K , mientras que los de audio AAC presentan _calidad CD_ entre 160 Kbps y 256 Kbps. Pero en ningún momento se puede hablar de calidad equivalente, o a no ser capaz de distinguir entre el sonido de un CD y el de un MP3/AAC, sino a que el oyente promedio no la percibe.