Cómo conseguir una buena calidad de sonido en la era de la transmisión digital

Publicado el 15 Jul 2022

Michal Soloducha, ingeniero de sonido y programador de Snom Technology.

Entender a la persona con la que se habla y hacerse comprender por ella es la base de una buena comunicación. Esto se aplica a todo tipo de intercambios verbales, porque en comparación con los gestos, las expresiones faciales y los signos (escritos), el lenguaje oral tiene una ventaja única: transmite el significado de lo que se dice con mayor claridad.

Por ello, es imperativo transmitir las voces por teléfono exactamente como son: sin retraso o distorsión, como si los interlocutores estuviesen sentados juntos en la misma habitación. Pero, ¿cómo se consigue esto? Sobre todo, teniendo en cuenta que lo analógico se convierte en digital y viceversa y que la palabra se comprime, se empaqueta, se desempaqueta… dando lugar a algo que puede identificarse como una “voz” individual. ¡Una pequeña maravilla! Un rápido vistazo entre bastidores muestra lo realmente importante para una buena calidad de audio en la telefonía IP.

¿Quién interfiere?

En la comunicación digital, la palabra hablada se digitaliza mediante códecs y se comprime en paquetes de datos. Pero también es importante el camino que toman ahora los paquetes de datos (enrutamiento). Es crucial que todos los paquetes de datos lleguen en el orden correcto y en el momento adecuado. Si no se consigue, se produce “jitter”, una variación en el tiempo de ejecución de los paquetes de datos, perceptible como una voz “entrecortada” o “metálica”. Esto suele ser especialmente notorio en los llamados canales de telefonía “libre”, como Skype y similares, donde no se hace distinción entre los archivos de transmisión de voz y otros formatos. En este caso, los archivos de voz no tienen prioridad y, en consecuencia, suelen llegar al receptor de forma incorrecta o con retraso.

Garantizar una transmisión óptima del sonido cuando se levanta el auricular para hacer una llamada puede no ser tan sencillo como parece…

Otro problema viene dado cuando la conexión a Internet seleccionada es demasiado lenta: del códec utilizado, se necesitan entre 3 Kbit/s -GSM- y 128 Kbit/s -G711-G722- por conexión para una buena transmisión de voz. Debido a la priorización de la voz, primero se ralentiza la red, pero luego se pasa a un códec de mínimo consumo, lo que también puede producir pérdidas de calidad.

La calidad no es casualidad

Sin embargo, una vez superados estos obstáculos, la buena transmisión de voz no está ni mucho menos garantizada, porque ahora entra en juego el siguiente punto débil potencial: ¡la carcasa!

Todo comienza con el diseño inicial del terminal y la posición óptima de los altavoces y los micrófonos, según sus áreas de aplicación, por ejemplo, en el auricular o en las unidades de manos libres. En el siguiente paso, hay que coordinar la selección de los componentes de hardware utilizados. En este caso, también es importante la compatibilidad entre los componentes, para que todas las piezas funcionen juntas de forma óptima y se disponga de la potencia necesaria para poder codificar y enviar datos de forma eficaz en tiempo real.

En este sentido, el proceso de comprobación de la calidad de audio de un nuevo producto debe comenzar en cuanto se dispone del primer diseño industrial, y continuar y ser optimizado desde las primeras muestras de moldeado por inyección de plástico durante todo el ciclo de vida del producto. Asimismo, y con el paso de los años, debe mejorarse asiduamente la calidad de sonido de los productos combinando, por ejemplo, los últimos algoritmos DSP con conocimientos de señalización VoIP. En el caso de Snom, el fabricante berlinés ha conseguido resolver varios problemas característicos de la tecnología VoIP, como los retrasos de procesamiento y de red, la pérdida de paquetes de red y el ruido, de los que están justificadamente muy orgullosos.

Esta atención a los detalles durante la fase de diseño es lo que caracteriza las diferencias en la calidad de la voz de los teléfonos. Las pruebas subjetivas son tan importantes como las objetivas: un teléfono que está objetivamente bien ajustado puede seguir ofreciendo una mala calidad de sonido en la práctica. Snom entiende que los dispositivos de audio bien calibrados son aquellos en los que a un ciclo de ajustes objetivos le sigue un periodo de sesiones subjetivas y luego ambas evaluaciones cumplen con los requisitos, tanto en términos de acústica del auricular como de manos libres.

La calidad de audio es una cuestión de rutina para la mayoría de los usuarios; lo compleja y exigente que es esta tecnología todavía hoy solo queda claro cuando se consideran las experiencias de sonido a menudo pobres de los smartphones más sofisticados o de los dispositivos de sobremesa de diseño.