Accueil sur les formats audio

Format de fichier audio

Un format de fichier audio est un format de données utilisé en informatique pour stocker des sons, notamment de la musique et de la voix humaine, sous forme numérique. L'industrie a produit de nombreux formats destinés soit à la production, soit à la diffusion.

L'élément de programme qui transforme le signal en fichier et le fichier en signal s'appelle un codec.

Les télécommunications et particulièrement la téléphonie mobile utilisent des codecs adaptés à la transmission de la parole.

Les formats de codage audio dérivent d'études psychoacoustiques. Ils limitent la quantité d'information dans le signal de façon à réduire le débit et donc le poids du fichier, en tenant compte de la perception humaine des sons et de la qualité de la reproduction qu'ils tolèrent.

infos: Toutes les conversions de sons en signal audio analogique ou numérique, se limitent au fréquences correspondant à l'audition humaine, ou un peu plus.; La plupart tirent parti de la moindre sensibilité de l'oreille aux fréquences les plus basses et les plus élevées en déplaçant vers ces fréquences le bruit de fond et le bruit de quantification.; Les codecs peuvent de plus détecter les redondances du signal audio, de façon à ne transmettre que la partie imprévisible du signal. Tous les éléments qui font la différence entre le signal et le bruit, qu'il s'agisse de fréquences musicales ou de rythmes, sont basés sur la répétition à plusieurs reprises d'un phénomène.; Pour obtenir un débit plus réduit, les codecs peuvent tirer parti des effets de masque, fréquentiel et temporel, de l'audition humaine, ainsi que de la faible discrimination des hauteurs spectrales dans les deux octaves supérieures de l'audition.; Les systèmes les plus élaborés se basent sur un véritable modèle de l'audition humaine et visent à ne transmettre que les informations nécessaires pour obtenir la même perception auditive que pour le signal brut de numérisation.; Les codages se situent à divers points de compromis entre le coût de production, le débit numérique, les contraintes de diffusion et la qualité perceptuelle.; En poursuivant un objectif de réduction de la quantité d'information, on peut être amené à définir une qualité admissible de reproduction, qui soit distincte de la meilleure qualité possible. Quand l'usage du codec vise la transmission de la parole, les paramètres sont ajustés pour cette utilisation moins exigeante que la musique.; La plupart des encodages donnent, pour un même décodeur, de meilleurs résultats avec des processus de calcul longs, ou qui tiennent compte, en plusieurs passes, du segment audio entier, la qualité d'écoute peut être moindre pour les applications en temps réel, qui imposent un faible délai.

En principe, un encodage perceptuel avancé donnant, pour le même enregistrement, une taille inférieure à celle d'un codage pour CD pourrait avoir une qualité subjective supérieure, à condition que leur original commun ait été une source enregistrée avec une fréquence d'échantillonnage et une résolution supérieures. En pratique, d'une part on choisit souvent des compressions privilégiant plus la diminution de la taille du fichier, d'autre part la source avant compression est souvent un fichier CD.

Actuellement, le codec le plus utilisé est de loin le mp3, wma, AAC.

Il faut distinguer le format de fichier et le codec. Beaucoup de fichiers utilisent le format RIFF, qui peut contenir une quantité d'éléments divers. Un en-tête qui occupe les quatre premiers octets indique le type RIFF, suivi des indications nécessaires sur l'emplacement des autres éléments, construits récursivement de la même façon. Ces éléments peuvent contenir tous types de données. Ceux de ces éléments qui codent du son indiquent le codec dans leur en-tête. La machine ignore les éléments qu'elle ne peut décoder. Un fichier identifié comme wav, peut ainsi contenir des éléments dont le codec est mp3.

Certains systèmes, et les utilisateurs humains, peuvent utiliser l'extension du nom de fichier de données qui désigne conventionnellement le format de fichier. Mais cette indication, la plupart du temps, indique une liste de codages possibles et non le codage lui-même. Elle intéresse plus le système de classement des fichiers dans le disque dur, que le format lui-même. Changer ce nom n'a pas d'incidence sur la manière dont la machine décode le fichier, cela peut seulement gêner la recherche du programme le plus adapté pour le faire.

Caractéristiques des codages audio: Nombre de canaux sonores codés : mono, stéréo, multicanaux; Fréquence d'échantillonnage : nombre d'échantillons par seconde utilisés pour décrire numériquement le signal qui représente l'onde sonore pour chaque canal. La bande passante dépend étroitement de cette caractéristique; Résolution de chaque échantillon en bits. Le rapport signal sur bruit dépend de cette caractéristique si le bruit de quantification est supérieur au bruit propre du signal. Le dither augmente un peu le bruit de fond, afin de le rendre indépendant du signal et de le déplacer vers une région du spectre; Débit numérique : taille du fichier par rapport à la durée du son; Compression de données ou réduction de débit par rapport à un fichier brut; Avec reconstitution de la forme d'onde initiale; Avec reconstitution de l'impression sonore; Puissance de calcul nécessaire au codage; Puissance de calcul nécessaire au décodage; Structure permettant ou non de commencer à jouer le fichier alors qu'on en connaît pas encore la fin; De jouer un fichier à partir du milieu sans connaître le début; De sauter sur un emplacement déterminé; D'enregistrer des données ancillaires et auxiliaires; De gérer les droits de reproduction numérique; D'adapter automatiquement le niveau au local d'écoute

Selon l'usage auquel le fichier est destiné, certaines caractéristiques ont plus d'importance que d'autres.

Un format destiné aux baladeurs :: Deux canaux suffisent; Le débit doit être réduit pour enregistrer des temps suffisamment longs dans les mémoires des baladeurs; La puissance de calcul nécessaire au décodage doit être faible pour permettre une bonne autonomie des lecteurs; La bande passante doit être bonne pour écouter de la musique; Le rapport signal sur bruit n'a pas besoin d'être très bon, parce que la consommation ne se fait pas dans des locaux silencieux et destinés à l'écoute; La gestion des droits de reproduction intéresse les producteurs; La possibilité d'adaptation automatique au local d'écoute relever le niveau des passages faibles quand l'ambiance est bruyante grâce à des données auxiliaires est un avantage; La reconstitution de la forme d'onde est inutile; La puissance de calcul nécessaire au codage peut être importante

Un format destiné à la production cinéma :: Il faut deux à huit canaux; La bande passante doit être excellente, elle ne pourra que se dégrader par la suite; Le rapport de phase entre canaux influe sur la stéréophonie; Le rapport signal sur bruit doit être excellent et la reconstitution de la forme d'onde est préférable; les signaux sont appelés à être retouchés, mélangés, traités; la consommation finale se fait dans des locaux silencieux et destinés à l'écoute

Comme c'est une activité industrielle :: Le débit et la puissance de calcul nécessaire tant au codage qu'au décodage sont à peu près indifférents; La gestion des droits de reproduction, et l'adaptation automatique au local d'écoute n'ont pas d'intérêt à ce stade

Dans un format donné, les fichiers peuvent être déclinés en plusieurs échelles de quantification ( 8, 16, 24 bits ) avec différentes fréquences d'échantillonnage ( par exemple 22,05 kHz, 44,1 kHz, 48 kHz, 88,2 kHz, 96 kHz, 176,4 kHz, 192 kHz ) appliqués à un certain nombre de voies. Les formats qui utilisent la réduction de débit par codage psychoacoustique proposent diverses qualités de reproduction, correspondant à plus ou moins de réduction de débit.

Les différents canaux sonores peuvent être réels et multiplexés, ou mélangés discrètement aux signaux principaux, que tous les décodeurs restituent, tandis que seulement ceux qui exploitent des algorithmes spécifiques décodent et restituent les autres. Quand il y a réduction de débit, celle-ci peut utiliser ou non la redondance entre les canaux.

Les codecs peuvent utiliser deux stratégies, avec leurs avantages et inconvénients respectifs: Constant bit rate ou CBR : Le débit binaire fixe donne à chaque trame du fichier, correspondant à une durée élémentaire, la même taille; Variable bit rate ou VBR : Le débit binaire variable adapte la compression à chaque passage du fichier, pour obtenir une qualité homogène. En général, on peut arriver à une meilleure qualité subjective globale pour une même taille de fichier, puisque le fichier peut comporter plus d'informations pour les passages difficiles. En contrepartie, cette stratégie est délicate à mettre en œuvre pour le codage en direct, il faut en général au moins deux passes pour l'encodage. La première repère les passages contenant le plus d'information, la seconde répartit la compression selon les résultats de la première et l'objectif global de taille qu'impose l'utilisateur. Il est aussi plus difficile d'atteindre un point repéré uniquement par le temps

Utilisation des formats

Un format est dit de production quand il sert à la confection d'un prototype, de diffusion lorsque l'enregistrement, qui ne subira plus de modifications, sera copié à un grand nombre d'exemplaires ou diffusé sur un canal de communication de débit binaire limité.

Dans un processus de production, la taille du fichier est de moindre importance. On choisit des formats qui conservent autant que possible l'information enregistrée dans les éléments sonores, et qui permettent des traitements de meilleure qualité, même au prix d'une importante consommation de ressources de calcul. Le plus souvent, on évite la compression de données, et même on augmente la taille des fichiers, par exemple en ajoutant des métadonnées encapsulées et en convertissant le format des données numériques de nombres entiers en virgule flottante. La plupart du temps, le signal peut être restitué après décodage identique à ce qu'il était avant le codage.

Dans la diffusion des fichiers audio, la taille des fichiers a beaucoup plus d'importance. Le codage vise à restituer l'impression sonore, sans garantir la restitution du signal à l'identique. La réduction du débit des données rend incertaine la qualité d'un traitement ultérieur.

La question de la qualité

Lorsqu'on considère la qualité de la transmission du point de vue de la perception humaine, son évaluation ne peut se faire qu'avec des méthodes psychoacoustiques, soit en étudiant l'appréciation d'échantillons d'auditeurs, soit avec des modèles d'évaluation élaborés à partir de ces enquêtes. Ce contrôle de la qualité des méthodes d'encodage est un champ de recherche depuis 1990. L'Union internationale des télécommunications a défini des méthodes d'évaluation subjectives de la qualité de la transmission, qui résultent en une note d'opinion moyenne qui peut varier entre 0 et 5.

Pour un format de fichier sans réduction de débit, la qualité de reproduction peut assez bien s'évaluer par le débit numérique, qui est le produit de la fréquence d'échantillonnage par le nombre de bits. Le CD, à 44,1kHz et 16 bits, peut servir de point de comparaison dans cette évaluation. Quand on réduit le débit, la qualité se dégrade rapidement quand on l'augmente, elle s'améliore de plus en plus marginalement au fur et à mesure que le débit augmente. Pour l'enregistrement en direct, où, contrairement au CD terminé, on ne peut contrôler et anticiper le niveau, une résolution supérieure est appréciable, d'autant plus qu'on ne souhaite pas en général, à ce stade, comprimer la dynamique sonore.

Aidé par les nouveaux supports informatiques, le son peut être numérisé en 24 bits. On atteint ainsi un rapport signal sur bruit supérieur à celui du matériel de prise de son. Pour le mélange et le traitement du signal, il est préférable d'utiliser une plus grande résolution, pour éviter que le cumul des arrondis dans les très nombreux calculs que nécessitent les filtres et les mélanges ne détériore le signal. En codage en virgule flottante, 32 bits IEEE 754 simple précision suffisent pour éviter cette accumulation. Certaines machines travaillent en 64 bits IEEE 754 double précision et les erreurs se trouvent ainsi repoussées à l'infini, au prix d'une énorme marge de calculs inutiles.

De la même façon, augmenter la fréquence d'échantillonnage à la prise de son permet d'utiliser des filtres anti-repliement moins brutaux. Quand les filtres doivent passer de passe à coupe sur une octave, comme dans le CD, ils transmettent un peu irrégulièrement la partie du signal qui doit passer et ne peuvent couper complètement la partie qui doit disparaître. Les meilleurs filtres demandent beaucoup de calculs et ils imposent un délai important au signal. Il est possible de reporter cette opération à la phase finale de la production. Les appareils modernes offrent des fréquences d'échantillonnage doubles et quadruples du CD : 88,2 kHz et 176,4 kHz et de celles de la télévision : 48 kHz, soit 96 kHz et 192 kHz.

L'utilisation de formats de qualité supérieure s'impose durant les phases d'enregistrement et de production. La précision supplémentaire ainsi obtenue autorise des calculs plus fins lors de traitements numériques dans les logiciels audio. Ceci permet une amélioration subtile de la qualité lors de l'application d'effets tels que la réverbération. Et le coût se répartit entre les dizaines de milliers de consommateurs du produit fini.

Le format du CD obéit à d'autres critères. Chaque auditeur doit acquérir le matériel pour l'écoute. Celui-ci ne doit pas être trop coûteux. L'enregistrement n'est pas destiné à être modifié : le niveau peut exploiter la totalité de la dynamique du média. Le CD, avec une dynamique effective d'environ 92 dB est adéquat pour une dynamique sonore de 70 dB, correspondant à un mixage de musique classique. Pour les autres genres musicaux, il est largement suffisant, si l'on en juge par l'évolution des mixages. Il correspond aussi à l'état de l'art dans les années 1980, progressivement amélioré par les progrès sur les filtres numériques et sur le dither.

Des offres promettant un son de qualité supérieure au CD existent : pour les disques physiques, le DVD-Audio ou le Super Audio CD de Sony, qui a l'avantage d'exister en version hybride : il est lisible à la fois selon la norme CD Audio classique, sur tous les lecteurs, et en SACD sur un lecteur dédié. D'une part, ces revendications ont été contestées, alors que parallèlement, le son du CD était amélioré, sans en changer le format et d'autre part, le public audiophile visé par ces arguments semble avoir été trop restreint : pour entendre une éventuelle différence, il faut une assez grosse installation. Mais l'existence de cette différence n'est pas universellement reconnue ; par exemple, les salles de cinéma offrent un son de haute qualité, multicanal, avec une forte dynamique, en utilisant un codage seulement un peu supérieur à celui du CD, 48 kHz et 16 bits.

La majorité du public non seulement se contente de la qualité CD, mais se tourne vers des formats plus portables, parfois au détriment de la qualité de reproduction. Pour les applications audiovisuelles, il n'a pas le choix.

Formats de fichiers audio

Plusieurs formats audio étant basés sur la norme RIFF, format d'échange de fichiers ressources, il convient de le décrire en premier, bien qu'il s'agisse d'une norme d'usage général.

Le principe est de définir des conteneurs et des bouts chunks, les uns et les autres identifiés par leurs quatre premiers octets, qui sont, généralement, des caractères ASCII, de façon à pouvoir être lus par les techniciens qui ouvrent le fichier avec un éditeur hexadécimal, suivi par quatre octets qui indiquent où se trouve la fin du conteneur, ce nombre d'octets limite la taille d'un fichier RIFF à 4 Go.

Un fichier RIFF commence par RIFF et la longueur totale puis on trouve l'identifiant du premier sous-conteneur, par exemple INFO suivi de la longueur de ce bout, à la fin duquel commence le suivant, par exemple WAVE suivi de la longueur de ce bout.

Le format WAV est un conteneur basé sur le format de fichier RIFF, dans lequel son identifiant est WAVE. Il peut contenir des codages audio avec réduction de débit ou non, mono, stéréo ou multicanal, il a été mis au point par Microsoft et IBM. Les informations nécessaires au décodage se trouvent au début du fichier. Le WAV permet de stocker des métadonnées dans le fichier.

Le plus souvent, il contient de l'audio sans réduction de données, avec des fréquences d'échantillonnage et des résolutions variées.

L'European Broadcasting Union a défini une extension broadcast du format WAVE à l'usage des professionnels, le Broadcast Wave Format. Il s'agit d'un bloc chunk de métadonnées ajouté au fichier. Dans le format RIFF, les programmes qui rencontrent un bloc (chunk) qu'ils ne peuvent interpréter l'ignorent simplement. Les fichiers BWF sont donc compatibles avec les lecteurs WAVE classiques. Leur suffixe reste .wav. C'est le format d'enregistrement usuel de nombreuses stations de travail audio professionnelles de la télévision et du cinéma.

Le bloc d'extension broadcast s'identifie dans le fichier WAV par le code bext. Il inclut une référence standardisée Timestamp qui permet la synchronisation avec un élément d'image distinct, ainsi que des informations d'identification du contenu et de mesure du volume, de la dynamique et du niveau de crête.

Ogg

Le format Ogg est un format libre, fruit de la fondation Xiph.org. Ogg est un conteneur qui peut contenir des pistes audio sans perte, codées avec le codec psychoacoustique Vorbis, audio parlées et vidéo. Un fichier Ogg peut donc contenir l'un ou l'autre ou une combinaison de pistes.

L'AIFF est l'équivalent du format WAV sur les ordinateurs de Apple. Les résolutions 8, 16, 20, 24 et 32 bits sont acceptées.

Le suffixe des fichiers créés est .aif.

Une variante l'AIFF-C permet de compresser la taille jusqu'à 6x.

Le CAF a été développé par Apple pour s'affranchir des limitations de conteneur audio plus ancien comme le AIFF ou le WAV.

Il est compatible avec le système Mac OS X d'Apple depuis la version 10.3 et est lisible par Quicktime 7.

RAW est un format audio utilisé pour représenter les données de son en modulation d'impulsion codée sans en-tête ni métadonnées. Le fichier RAW est inexploitable sans les informations sur la fréquence d'échantillonnage, le nombre de bits de la quantification et sa loi linéaire ou logarithmique ainsi que le codage des valeurs grand-boutien ou petit-boutien, ainsi que le nombre de canaux, qui doivent être transmises par ailleurs.

Format audio non compressé

Le PCM n'est autre que la représentation du signal audio échantillonné, quantifié et encodé.

L'encodage se réduit au choix de la représentation numérique, qui peut être, pour une même valeur de niveau de quantification, en entier positif, entier signé, entier signé en complément à 2ⁿ, ou à virgule flottante. Les canaux sont multiplexés échantillon par échantillon. Chaque échantillon est, du point de vue du codage et du décodage, indépendant, il n'est jamais nécessaire de connaître plus d'un échantillon pour décoder, et, par conséquent, un flux ou un fichier PCM peut se couper ou se remplacer à n'importe quel point.

Les logiciels de création musicale peuvent facilement produire ce format, comme les enregistreurs numériques. Sauf dans le cas de conversion de fréquence d'échantillonnage, nécessaire par exemple pour utiliser une source CD échantillonnée à 44,1 kHz dans un montage audiovisuel échantillonné à 48 kHz, ou bien lors de changement de résolution, exigeant un redithering, les étapes de codage et de décodage se limitent aux opérations de conversion analogique-numérique et de conversion numérique-analogique, ou de changement de format numérique. Les semi-conducteurs et les programmes qui effectuent ces opérations sont couramment appelés sous la désignation générique de codecs.

L'audio PCM est généralement stockée dans un format conteneur WAVE sur Windows ou AIFF sur Mac OS, incluant un bloc d'information qui contient les paramètres de représentation numérique, indispensables au décodage des données.

Formats de compression audio réversibles

La compression audio réversible se base, comme pour n'importe quel autre fichier informatique, sur le repérage de redondances dans les fichiers ou les flux audio. En référence à la théorie de l'information, on la décrit comme codage de l'entropie. Les formats musicaux utilisent des méthodes de compression complexes, comme le codage de Huffman ou le procédé de prédiction par reconnaissance partielle. Plus la méthode est complexe, plus le codec aura besoin de temps de ressources. Certaines méthodes de compression effectuent deux passes, l'une de reconnaissance du fichier, la seconde de codage, elles impliquent donc un retard assez important pour les flux.

La compression sans perte signifie qu'on utilise un algorithme tel qu'on puisse toujours retrouver les données d'origine.

Typiquement, la compression réversible permet de diviser la taille des fichiers par deux ou trois. Elle est relativement peu utilisée, car ce gain est faible en comparaison de ceux permis par la compression non réversible, qui cependant utilise les mêmes procédés, après avoir éliminé les informations jugées non pertinentes.

Le format FLAC est un format libre de compression audio sans perte.

Maintenu par la fondation Xiph.org, e format est très apprécié pour l'archivage, étant donné son fort taux de compression sans altération des données.

L'ALAC est un format de codage sans perte créé en 2004 par Apple.

Shorten aussi dit SHN est un format audio qui applique une méthode standard de compression de données.

Formats de compression audio irréversibles

La compression audio avec perte d'informations se base sur des algorithmes spécialisés pour déterminer quelles transformations simplifient la représentation du son tout en restituant au mieux l'impression sonore. Elle diminue la taille du fichier en éliminant les nuances non perçues ou moins essentielles au contenu. L'élimination est définitive, créer un fichier dans un format de haute qualité à partir d'un fichier compressé de cette manière ne peut servir strictement qu'à diminuer la charge de calcul du décodeur en lecture.

Le format le plus connu est le MPEG-1 / 2 Audio Layer 3, dont le suffixe est .mp3. Ce format propose une qualité sonore très correcte pour un débit de 128 kbit / s. C'est ce format qui a été massivement utilisé pour transférer les musiques via internet dès la fin des années 1990. Rapidement, des baladeurs avec une mémoire réenregistrable et capables de lire directement ce format sont apparus.

Dans la décennie 2000, de nouveaux formats ont été proposés. Vu les progrès des algorithmes et de la capacité de calcul du matériel, ils surpassent le MP3 sur le plan de la qualité à débit égal, et peuvent atteindre des qualités supérieures. De plus, certains sont moins contraignants que le MP3 quant aux droits d'utilisation. Mais le MP3 reste le plus utilisé, car l'arrivée en continu de nouveaux formats, apportant un avantage assez faible par rapport aux précédents, ne permet pas de mettre en place un standard meilleur que le MP3 et lisible par tous les baladeurs.

Le format MP3 indique au décodeur la manière de reconstituer un signal audio à partir des données compressées. Il ne fixe aucune règle pour calculer la meilleure manière de représenter le son d'origine. Les codecs de MP3 ont donc pu réaliser des progrès importants depuis le début de l'utilisation de ce format.

L'encodage MP3 permet typiquement un gain d'un facteur 10 de taille du fichier. Cela a rendu possible non seulement le stockage d'un temps d'écoute formidable sur les supports informatiques, mais aussi leur échange par internet, souvent illégalement.

Le format de compression AC-3 est un standard introduit par la société américaine Dolby Laboratories au début des années 90.

Il permet de coder de l'audio multicanal 5.1, avec des débits allant de 32 à 640 kbit / s. Ce format est employé dans les projections cinéma 35 mm, en télédiffusions HD, sur support DVD et Blu-ray, dans les consoles de jeux.

MP3 est l'abréviation de MPEG-1 / 2 Audio Layer 3. La section audio du Moving Picture Experts Group réunit en 1990 des techniques de compression MUSICAM, développée pour la radiodiffusion numérique et ASPEC, prévue pour des transmissions point à point, en une seule norme. La norme a trois niveaux de complexité et de performance croissante, permettant des applications très variées. La couche 3 est adaptée à des applications nécessitant des débits réduits, d'où une adhésion très rapide du monde Internet à ce format. L'ISO en fera une norme internationale dans les années 92-93.

La musique s'encode d'ordinaire à un débit de 192 kbit / s, correspondant à un taux de compression de 1 pour 7,35, c'est-à-dire qu'un fichier encodé en mp3 occupe 7,35 fois moins d'espace qu'un fichier non compressé enregistré à 44,1 kHz. Une qualité maximum s'obtient à 320 kbit / s. La parole s'encode en général en mono au débit de 48 kbit / s ( 1:15 ). Le débit minimum est 8 kbit / s ( 1:88 ).

La norme .mp3 spécifie uniquement les opérations de décodage, afin de permettre la lecture des fichiers sur tous les appareils. La qualité du résultat, à un même taux de compression, dépend, dans une certaine mesure, de l'encodeur. La précision liée à la puissance de calcul, ainsi que la stratégie d'encodage, qui peut être en temps réel ou en plusieurs passes, interviennent. Les encodeurs peuvent être sujets à des royalties. L'encodeur MP3 LAME ( V5 ), permet d'obtenir à 130 kbit / s une qualité comparable au AAC à 48.

Le suffixe des fichiers créés est .mp3.

Type de compression : débit constant ou débit variable.

Le format MP3 PRO, fruit de la collaboration entre Thomson Multimédia et l'Institut Fraunhofer, combine l'algorithme MP3 et un système améliorant la qualité des fichiers comprimés appelé SBR pour Spectral Bandwidth Replication.

Ce format a été publié à la fin de 2001, un fichier MP3pro 64 kbit / s a une qualité équivalente à celle d'un MP3 à 128 kbit / s.

Le suffixe des fichiers créés est .mp3.

Vorbis se différencie des MP3, WMA et autre AAC par son algorithme. Il segmente les sources audio en paquets successifs, l'algorithme de compression agissant dans un premier temps sur chaque paquet indépendamment des autres. Cela lui permet d'avoir très peu de faiblesses sur certaines fréquences et de conserver la même qualité quel que soit le type de musique.

Le suffixe des fichiers créés est .ogg ou parfois .oga.

Par abus de langage, on appelle fichier Ogg des fichiers musicaux compressés par l'algorithme Vorbis. Nous devrions parler de fichier Ogg Vorbis lorsque nous mentionnons un fichier .ogg qui ne contient qu'une piste sonore au format Vorbis.

Le format TwinVQ, a été développé par NTT Cyber Space Laboratories et soutenu par Yamaha. Dans le même esprit que le MP3, il comprime encore plus et avec une meilleure qualité. On regrettera une durée de codage un peu trop longue, près de 10 fois plus lente que le MP3. De plus, arrivé bien plus tard, et distribué sous une licence très restrictive, il a eu peu d'adeptes et est plus ou moins abandonné.

Le suffixe des fichiers créés est .vqf, .vql ou .vqe.

Le format WMA, créé par Microsoft à partir des recommandations MPEG-4 en 1999, est utilisé par le logiciel Windows Media Player. Ce format est lié à une gestion pointue des droits d'auteurs Gestion numérique des droits, qui permet de définir par exemple une durée de vie limitée pour les fichiers ou d'interdire les possibilités de gravure.

Il existe plusieurs versions du codec ( wma7.1, wma9, wma pro ).

Le suffixe des fichiers créés est .wma.

Le format AU est assez bien répandu grâce à Linux. La fréquence d'échantillonnage est comprise entre 1 kHz et 200 kHz. Mais les applications de rendu audio ne lisent principalement que trois fréquences d'échantillonnage : 8012.821, 22050 et 44 100 hertz.

Le suffixe des fichiers créés est .au.

Les résolutions 8, 16, 20, 24, 32 bits flottant sont acceptées.

ASF Advanced Streaming Format, est un format conteneur de Microsoft servant au streaming audio et vidéo.

L'AAC est une extension du MPEG-2 et a été amélioré en MPEG-4, MPEG-4 Version 2 et MPEG-4 Version 3. Il a été reconnu fin avril 1997.

Le suffixe des fichiers créés est .aac, .mp4, .m4a.

Apple a choisi l'AAC comme codec privilégié, on le retrouve dans son iPod et son logiciel iTunes. Pour la vente musicale en ligne iTunes Music Store, la norme AAC ne proposant pas de système de gestion des droits numériques, Apple a développé son propre système, appelé FairPlay. Il est lisible sur Mac OS et Windows, uniquement avec le logiciel iTunes. En janvier 2009, Apple annonce la suppression des DRM FairPlay sur toute la musique de son site iTunes Store 2.

Le fait que l'AAC soit le seul format de compression plus performant que le MP3 qui soit pris en charge par les iPod a fortement contribué à sa popularité. Insuffisamment cependant pour qu'il s'impose comme successeur du MP3, d'autres formats cités faisant largement jeu égal en performances.

L'ATRAC est une technique de compression audio psychoacoustique, il existe une option purement statistique développée par Sony en 1992 pour son MiniDisc. Ce format a subi plusieurs évolutions : ATRAC3, ATRAC3 plus familièrement écrit ATRAC3+ et ATRAC Advanced Lossless se sont succédé respectivement en 1999, 2002 et 2006.

Formats multipistes

Les formats multipistes sont une innovation récente. Ils consistent à encapsuler dans un fichier différentes pistes sonores, qui peuvent alors être combinées par l'utilisateur dans les proportions qui lui conviennent. L'idée est de proposer, pour un morceau de musique, la piste correspondant à chaque instrument et la voix de manière séparée. L'utilisateur peut alors créer sa propre version.

Le U-MYX avait été utilisé pour inclure des parties bonus dans les albums.

Ces formats ont l'inconvénient de ne pouvoir s'écouter sans un ordinateur. Cependant l'apparition de smartphones faisant office de baladeurs et capables d'exécuter des applications indépendantes permet à ces formats de devenir transportables, y compris pour la lecture avec mixage.

Le U-MYX est un format multipiste lisible avec une application dédiée, éditée par la même entreprise qui a développé le format. Ce format a été utilisé pour fournir des morceaux en version multipiste à titre de bonus dans les albums, l'application étant fournie en même temps que les morceaux, le tout sur une session de CD visible uniquement si on lisait le disque sur un ordinateur.

Malgré ces exemples d'utilisation, le futur de U-MYX est incertain, car l'entreprise qui le produit est assez floue sur ses projets futurs.

Le MXP4 est un format multipiste dans lequel les pistes encapsulées sont au format Ogg. Produit par une société française, le format a bénéficié d'une forte médiatisation dans la presse française, présenté comme un successeur du MP3. Une expression qui peut sembler exagérée, les formats multipistes jouant tout simplement un rôle différent.

Les formats audiovisuels

Ces formats contiennent, à la fois des fichiers image et des fichiers audio, ainsi que du Timecode ou un pseudo-timecode.

Par exemple : Quicktime est multiplateformes et utilise de nombreux standards de l'industrie gratuits, certains autres, très orientés, sont payants. Polyvalents et de structure de données polymorphes, certains d'entre eux sont aussi utilisés pour le streaming.

Le son a bouleversé l'équipement des salles de cinéma. Ces dernières années, les nombreux cinémas Multiplex ont ainsi permis de faire remonter la pente à cette industrie. Il y a fort longtemps, le son au cinéma comme pour la musique était enregistré en mono, c'est à dire qu'il était enregistré sur une piste unique et nécessitait une seule enceinte pour la diffusion. Puis est apparue la stéréo, enregistrée par deux micros sur deux pistes séparées. Elle rendit possible la restitution d'une ambiance stéréophonique à l'aide de deux enceintes. Au cinéma, elle permit à l'auditoire une meilleure interaction avec l'histoire. Fort enthousiastes des effets réalistes de la stéréo, les ingénieurs poussés par une envie de réalisme croissant se sont lancés dans la multiplication des sources.

Ces avancées technologiques d'abord destinées au cinéma ont aujourd'hui un équivalent pour le particulier. Nous allons retracer toutes ces évolutions qui nous sont directement destinées. Il est important de garder à l'esprit que pour profiter de ces avancées il est nécessaire de posséder le matériel de décodage et de transmission adéquat.

L'équipement des salles répond à des attentes différentes de celles du home-cinéma. Les très nombreuses places de la salle doivent toutes profiter du son multicanal. Cela explique la multiplication des enceintes latérales et celles situées à l'arrière, alimentées par un système complexe de matriçage.

La famille DOLBY

Apparu en 1982, le Surround signifie entourer ou envelopper. Le format Dolby Surround utilise trois voies distinctes : une voie mono arrière, deux canaux frontaux pour latéraliser la bande sonore. Ces pistes ont peu de différence avec la voie arrière, entre 30 et 40 dB en ProLogic alors que les premiers décodeurs ne le distinguait que de 7 dB. Le 3ème canal, est monophonique même s'il est par la suite distribué sur deux enceintes arrières. Le canal d'infra-grave n'est pas encodé dans le signal mais simplement produit par filtrage et addition des trois canaux. Le Dolby Surround a fait le succès du LaserDisc dans lequel les 3 signaux sont matricés sur 2 canaux. C'est ce même codage ( Left Total / Right Total ) qui est utilisé pour diffuser des films Surround en Nicam. Le signal arrière a une bande passante réduite ( 100 Hz à 7 kHz ).

Lancé en 1987, Le Dolby Pro Logic est une extension matérielle du décodage Dolby Surround. Le décodeur Dolby Pro Logic émule une voie centrale avant, afin que le son paraisse plus naturel et surtout centré. Une enceinte supplémentaire, centrale, est utilisée pour reproduire les dialogues. Ce système augmente également la séparation des voies de droite et de gauche. La voie arrière reproduit l'image sonore en trois dimensions. Le Dolby Pro logic ou Dolby Surround est l'ancêtre analogique du Dolby Digital. La différence tient dans le niveau de séparation des canaux, ne dépassant pas 37 dB dû à la technologie de déphasage employée, à une bande passante limitée dans les effets arrière de 100 Hz à 7 000 Hz et à deux voies arrières exactement identiques. Pour profiter d'un tel décodeur, il faut donc utiliser 5 enceintes pour accéder à un réel confort d'écoute. Ce système est aujourd'hui dépassé depuis l'arrivée du Dolby Digital AC3.

C'est en 1992 qu'apparaît le premier format multicanal entièrement numérique : le Dolby Digital. Il s'agit d'un son numérique utilisant jusqu'à 6 canaux distincts : gauche, central, droit, arrière gauche et arrière droit, plus un canal subwoofer dédié aux effets de basses. Contrairement au CD-Audio, le Dolby Digital utilise une méthode de compression : l'AC3. Le son est donc dégradé, mais dans des proportions très acceptables et souvent imperceptibles, équivalentes au format populaire MP3. Chaque canal bénéficie de son flux de données musicales, ce qui a pour conséquence directe un marquage très important de la séparation des canaux à l'écoute.

Lorsque les 6 canaux sont utilisés, on parle de Dolby Digital 5.1, le .1 indiquant que 10% des données numériques sont alloués au canal subwoofer. Les débits couramment utilisés sont de 448 Kbits / sec et 384 Kbits / sec pour les programmes codés sur 6 canaux, et 192 Kbits / sec pour les programmes stéréo. C'est infiniment moins que les formats audio HD, tels que le Dolby TrueHD ou le DTS-HD, mais le niveau de qualité proposé reste aujourd'hui encore impressionnant.

S'il est évidemment conseillé d'utiliser 5 enceintes et un caisson de basses pour profiter du Dolby Digital, l'emploi d'un nombre moindre d'enceintes est possible. Le décodeur Dolby Digital réalise alors un mixage afin de profiter de toutes les informations de la piste originale.

Les laboratoires Dolby ont ensuite développé de nombreuses autres technologies adaptées à la diffusion de signaux multi-canaux à partir de programmes stéréophoniques. Le Dolby Pro logic a connu une nouvelle révision en août 2000, baptisée Dolby Pro Logic II.

Au programme :: une lecture en multi-canal, jusqu'à 6 canaux de sources stéréo; une amélioration de la bande passante des voies d'effets arrière ( 20 Hz-20 kHz contre 100 Hz - 7 KHz auparavant ); une meilleure séparation des canaux favorisant une image sonore plus précise; Le Dolby Pro Logic II propose 3 modes de fonctionnement :; music, movie, panorama; un procédé Phantom permet également de créer l'effet en l'absence d'enceintes surround

On peut considérer que le résultat est intéressant surtout pour le cinéma, même à partir de sources VHS. En revanche, le résultat à partir de sources musicales stéréo n'est pas toujours intéressant, il faut essayer. Certains disques sont recommandés pour fonctionner avec ce mode Pro Logic II. Dans tous les cas, deux réglages permettent d'ajuster le résultat du Pro Logic II en fonction de votre installation et de la source que vous utilisez.

Le procédé Dolby Pro Logic IIx reprend les caractéristiques du Dolby Pro Logic II en permettant une écoute en 6.1 ou 7.1 à partir de sources stéréo ou 5.1. Par l'ajout de 2 canaux surround arrière supplémentaires, cette technologie offre une ambiance sonore encore plus enveloppante pour vos bandes son ( TV, DVD ), en améliorant la profondeur et la spatialisation. Le Dolby Pro Logic IIx propose les deux modes d'écoute movie et music auxquels s'ajoute le mode "Game" qui optimise les effets spéciaux et les basses fréquences contenus dans les signaux surround des jeux vidéo.

Le procédé Dolby Pro Logic IIz reprend les caractéristiques du Dolby Pro Logic IIx en ajoutant une nouvelle dimension spatiale. En offrant la possibilité d'ajouter 2 enceintes surround au dessus des enceintes frontales gauche et droite, le Dolby Pro Logic IIz introduit une composante verticale au champ sonore horizontal des systèmes surround classiques 5.1 ou 7.1. Avec ce nouveau procédé exclusif, on obtient une meilleure sensation de profondeur et de réalisme sonore, l'oreille humaine étant beaucoup plus sensible aux sons venant de l'avant qu'à ceux venant de l'arrière. Avec Dolby Pro Logic IIz, la pluie dans un film semble tomber sur le toit de l'auditeur. Les vidéos musicales donnent vraiment l'impression d'assister au concert. Les musiques d'orchestre acquièrent une profondeur, une vigueur et une présence plus tangibles.

Le Dolby Pro Logic IIz permet également aux développeurs de jeux vidéo de coder les signaux audio avec des informations spécifiques sur la hauteur ( l'axe z ), ce qui ouvre de nouveaux horizons pour des effets véritablement tridimensionnels.

EX pour extended. Le Dolby Digital Surround EX est une extension du Dolby Digital qui introduit un canal arrière supplémentaire ( 6.1 ). Cette norme a été développée en collaboration avec Lucas film THX et Dolby Laboratories, à la demande de certains réalisateurs voulant créer des effets sonores sur 360°, plongeant le spectateur au coeur de l'action. Cette voie centrale ne représente pas un canal supplémentaire encodé numériquement, mais reprend le procédé analogique de déphasage entre les voies arrières existantes sur les systèmes actuels pour recréer une voie centrale arrière. Pour bénéficier de cette voie arrière, il faut que le support soit encodé en Dolby Digital Surround EX. La certification THX recommande l'usage d'une nouvelle paire d'enceintes bipolaires en fond de salle.

Certains amplificateurs proposent ce format 6.1 chargé de stabiliser l'image sonore sur l'arrière. La sixième voie n'est pas présente dans le signal d'origine mais calculée par le décodeur.

2000 : lancement du Dolby Headphone. Ce n'est pas un casque mais une technologie qui, lorsqu'elle est intégrée dans un appareil, recrée au casque un environnement sonore surround relativement réaliste avec tout types de casques stéréo standard.

En 2002 les laboratoires Dolby lancent le procédé Dolby Virtual Speaker. Conçu pour donner la sensation d'un son surround enveloppant avec une simple paire d'enceintes. Ce procédé de traitement numérique du signal simule les décalages temporels et les réflexions en les diffusant par les 2 seules enceintes frontales. Un mode large permet de donner l'impression que les enceintes sont plus écartées que leurs positions réelles. Ce procédé est complémentaire des systèmes Dolby Digital et Dolby ProLogic.

Le procédé Dolby Digital Plus offre une meilleure qualité d'encodage et davantage de canaux. Il a été conçu pour les programmes haute définition grand public tels que le broadcast ou le streaming. Le Dolby Digital Plus représente la nouvelle génération de technologies de divertissement à domicile et reste compatible avec les décodeurs Dolby Digital existants. Ce format a été retenu comme la norme obligatoire pour le DVD HD et comme norme optionnelle pour le disque Blu-ray. Le Dolby Digital Plus peut restituer un son d'excellente qualité sur 7.1 canaux et plus à un débit de 6 Mbits / s ( soit au moins 10 fois plus que le Dolby Digital ). Cette norme est rétro-compatible avec les systèmes home-cinéma Dolby Digital 5.1. Ceux qui possèdent un décodeur Dolby Digital traditionnel à 5.1 canaux sur un ampli AV ou un lecteur DVD / Blu-ray bénéficieront d'une qualité encore plus remarquable avec le débit d'informations plus élevé du Dolby Digital Plus. Ce format de son haute définition est transmis en numérique par la liaison HDMI 1.3 au minimum.

Le Dolby TrueHD est l'ultime évolution du codage multicanal audio. Cette nouvelle norme offre un son sans compression et a été développée pour les médias haute définition sur supports disques ( HD-DVD et Blu-ray ). Le Dolby TrueHD permet une reproduction sonore inégalée, identique au bit près aux masters enregistrés avec la meilleure résolution possible en studio. Désormais les auditeurs bénéficient d'un son en réelle haute définition. L'encodage du Dolby True HD utilise une technologie sans aucune perte, avec un débit binaire pouvant atteindre 18 Mbps. Ce format de son dernière génération supporte jusqu'à 14 canaux audio d'une résolution de 24 bits / 96 kHz. L'encodage du Dolby TrueHD est transmis en numérique par la liaison HDMI 1.3 au minimum et présent sur une majorité des films Blu-ray.

Le Dolby Atmos est un format audio multicanal offrant une spatialisation verticale du son grâce à plusieurs enceintes disposées au plafond et permettant la diffusion de sons provenant de sources discrètes dans toute la salle. Le Dolby Atmos peut ainsi gérer jusqu'à 64 canaux. Dans une salle de cinéma exploitant le Dolby Atmos, les enceintes qui reproduisent habituellement les canaux surround ne sont plus considérées chacune comme une seule enceinte diffusant le même son à gauche ou à droite des spectateurs, mais peuvent être utilisées indépendamment les unes des autres pour focaliser encore plus le signal sonore, vers l'avant ou l'arrière de la salle. La scène gagne en précision, chaque effet pouvant être diffusé sur une seule enceinte ou le groupe d'enceintes choisis lors du mixage original. Les sons diffusés suivent encore plus précisément les mouvements des acteurs et des objets à l'écran ou hors champ. De plus, l'intégration d'enceintes d'effets au plafond sur toute la profondeur de la salle accroît encore l'immersion et la précision des effets sonores.

Dolby Atmos 5.1.4.

Le Dolby Atmos peut être exploité à domicile avec un amplificateur compatible et deux ou quatre enceintes dédiées : il peut s'agir d'enceintes Dolby Atmos avec haut-parleur orienté vers le haut pour obtenir une réflexion des effets Dolby Atmos au plafond, ou bien d'enceintes encastrables montées au plafond.

La famille DTS

Le DTS est la réponse de Steven Spielberg à Georges Lucas, il est apparu en 1993 avec le film Jurassic Parc. Le Digital Theater System ( DTS ) est très proche du Dolby Digital avec un encodage sur 5.1 canaux. Son principal avantage est qu'il compresse beaucoup moins le signal, 4 fois moins et numérise le son sur 20 bits au lieu de 16. Il offre ainsi une qualité de son bien meilleure au prix d'un débit nettement supérieur ( 1411 kbps ) ce qui comble les puristes. Cependant il ne faut pas restreindre le DTS à un usage cinématographique. De part sa souplesse permettant d'enregistrer sur 1 à 8 canaux indépendants encodés de 16 à 24 bits pour un taux d'échantillonnage de 8 à 192 kHz ce qui permet un débit allant de 32 à 4096 kbps. Le DTS version 6 canaux, 20 bits, 44.1 khz pourrait devenir la future norme pour les CD audio multicanaux. Il existe quelques DVD de musique encodé en DTS.

Le DTS Neo:6 est l'équivalent du Dolby Surround Pro Logic II pour les systèmes 6.1. Utilisant le même principe, partant d'une source stéréo et grâce à un décodage matriciel, il permet un rendu multicanal 6.1.

Avec l'encodage 16 bits / 44,1 kHz du CD audio, et l'avènement du DVD, beaucoup de majors ont éprouvé un intérêt certain à augmenter le nombre de bits ( 20 ou 24 ) tout en accroissant la fréquence d'échantillonnage (de 96 à 192 kHz). L'intérêt était d'offrir une marge dynamique supérieure et davantage d'informations dans le haut du spectre audio. Ainsi est né le DVD-Audio, qui proposait un encodage 96 / 24 sur 6 canaux. Ce format audio haute définition nécessitait un lecteur qui intègre des convertisseurs spécifiques pour être lu.

Le format DTS 96 / 24 permet :: une reproduction fidèle du Master 96/24,; une totale compatibilité avec les décodeurs existants; une lecture compatible avec certains les lecteurs DVD-vidéo; la sortie du flux numérique sur une sortie SPDIF

Equivalent du Dolby Digital Surround EX 6.1, le DTS ES Matrix n'est pas comparable car la voie centrale arrière n'est pas encodée indépendamment des autres canaux. Ce septième canal est mixé dans les deux canaux surround.

Le DTS ES Discrete est l'évolution du DTS ES Matrix où les 7 canaux ( 6.1 ) sont encodés indépendamment. Le sixième canal est donc directement disponible sur le support DVD et non plus simplement calculé.

Le DTS Virtual permet d'écouter au casque, donc sur deux canaux, les pistes enregistrées en DTS 5.1 et 6.1.

Le DTS interactive est une version spécifique aux jeux vidéo.

Le DTS HD Master Audio ou DTS-HDMA est l'évolution haute définition et lossless du DTS ( 5.1 ). Ce format offre une résolution de 24 bits sur 96 kHz, pour un débit de 24 Mbps. Le nombre de canaux est théoriquement illimité, mais seulement 8 sont traditionnellement présents. Ce format de haute définition est transmis en numérique par la liaison HDMI 1.3 au minimum, les liaisons numériques coaxiale ou optique n'ayant pas un débit suffisant. Si vous possédez un ampli home-cinéma doté d'entrées audio analogiques 7.1, vous pouvez alors bénéficier du DTS HD Master Audio via le décodeur intégré d'un lecteur Blu-ray compatible.

Le DTS Surround Sensation permet de simuler un son surround tridimensionnel avec seulement deux enceintes ou un casque. Le cerveau humain analyse en permanence les sons entendus et reconstruit une image sonore tridimensionnelle par l'analyse, inconsciente mais bien réelle, des écarts de fréquences, des variations d'intensité et du décalage temporel entre les différents sons perçus. Lorsqu'on ne dispose que de deux enceintes ou d'un casque diffusant un programme musical traditionnel, la spatialisation du son est quasi absente et se cantonne à une image stéréo bien plate comparativement à une expérience d'écoute réelle.

Avec le procédé DTS Surround Sensation, grâce à un puissant algorithme de calcul, les écarts de fréquence et d'intensité ainsi que le décalage temporel des sons qui permettent au cerveau humain de percevoir le son en 3 dimensions, sont reproduits avec seulement deux enceintes ou même un casque ! Vous pouvez ainsi profiter d'une expérience sonore beaucoup plus immersive et donc plus réaliste. Le procédé DTS Surround Sensation convertit les pistes audio 5.1, 6.1 et 7.1 en stéréo avant d'appliquer le traitement de simulation surround adapté pour une reproduction sur deux canaux (enceintes stéréo ou casque).

Technologie de spatialisation virtuelle du son pour l'écoute au casque, utilisable aussi bien pour les films et la musique que pour les jeux vidéo. La technologie DTS Headphone : X fonctionne avec tous les casques stéréo et peut simuler un espace sonore tridimensionnel similaire à une écoute dans une pièce avec 11.1 canaux.

Le DTS : X ajoute non seulement une véritable dimension verticale au son surround mais il introduit également le concept d'objets audio indépendants, pouvant être placés et déplacés librement dans la zone d'écoute au gré des mouvements des objets et personnages à l'écran et hors champ. Basé sur le DTS HD Master Audio, le format audio DTS : X exploite 2 ou 4 enceintes surround supplémentaires, placées au-dessus des enceintes frontales et surround arrière, en plus des enceintes 5.1, 7.1 ou 9.1 classiques. Les pistes audio DTS : X nécessitent un amplificateur compatible capable de les décoder. Un ampli non compatibles ne pourra lire que la couche encodée en DTS HD Master Audio.

Le son immersif

Le Auro-3D est un format de son immersif 3D pour le cinéma et le home-cinéma qui offre une spatialisation améliorée des effets sonores, avec une dimension verticale. Il exploite pour cela un second niveau d'enceintes surround placées au-dessus des enceintes surround classiques, tout autour des spectateurs, ainsi qu'une enceinte de plafond, au-dessus des spectateurs. En home-cinéma, le son immersif Auro-3D nécessite un système d'enceintes 9.1 ou 10.1, avec des enceintes surround supplémentaires placées en hauteur, à la verticale des enceintes avant et arrière gauche et droite, et éventuellement une enceinte de plafond, centrée au-dessus des spectateurs.

Dans un système d'enceintes Auro-3D, quatre enceintes supplémentaires sont nécessaires pour donner une dimension verticale aux bandes son. En plaçant une enceinte surround au-dessus de chaque enceinte avant et arrière gauche et droite, on obtient un son immersif avec des effets mieux spatialisés en 3D.

Lors du mixage de la bande son du film, le signal Auro-3D contenant les informations sonores additionnelles pour les enceintes en hauteur est ajouté au format sonore 5.1 d'origine. Un ampli home-cinéma compatible Auro-3D et un lecteur Blu-ray traditionnel suffisent donc pour profiter du signal Auro-3D qui est alors décodé en plus du format sonore 5.1 présent sur le disque Blu-ray.

Le processeur Auro-3D intégré à l'ampli home-cinéma est également en mesure de créer un environnement sonore immersif 3D à partir de bandes son mono, stéréo ou 5.1.

Contrairement aux normes Dolby Digital ou DTS, le THX n'est pas un procédé d'encodage mais une norme de qualité, dont seules les électroniques et systèmes de restitution haut de gamme portent l'estampille. Il est le seul sur ce marché à ce jour. Dans sa version étendue, le THX prend en compte les capacités des électroniques, les sources de restitutions, les revêtements de sol, murs, plafond, fauteuils (...), la taille et l'orientation des enceintes par rapport au volume de la salle, etc... Autant dire que pour avoir l'agrément THX tous les éléments d'une pièce d'écoute doivent être agréés THX !

Petite remarque : les systèmes agréés THX sont avant tout optimisés pour une expérience cinématographique multicanale. Le label THX n'est donc en aucun cas une norme de qualité pour une écoute purement stéréo.

Les systèmes certifiés THX I / S Plus permettent de profiter de performances optimales dans une salle de projection privée de petite taille ( distance spectateurs / écran d'environ 2,5 m ). Tous les éléments du système - amplificateur home-cinéma et enceintes - sont testés par les laboratoires THX afin d'assurer leur compatibilité. Chaque système est certifié THX, THX Surround EX, THX Loudness Plus, et met en œuvre une technologie de contrôle de volume développée pour permettre une écoute sans perte à bas niveau.

Le THX Ultra est une extension du THX pour garantir une meilleure qualité: grande puissance sur tous les canaux; niveau de 105 dB sans distorsion

Auparavant conçu pour les studios d'enregistrement, ce format est disponible aujourd'hui pour l'amateur passionné.

Le THX Select est une déclinaison plus accessible du THX pour garantir une bonne qualité tout en utilisant des enceintes plus petites et plus faciles à placer.

C'est actuellement la norme la plus élitiste des certifications THX.

La norme THX Ultra 2 est conçue pour les grandes et très grandes pièces et prévoit une restitution sur 8 canaux et à un niveau de 105 dB.

SDDS

Le SDDS ou Sony Dynamic Digital Sound. SONY a mis au point un format spécifique pour les grandes salles. Réservé aux professionnels pour encore quelques temps ( aucun lecteur DVD/Blu-ray ne le supporte ), le SDDS utilise une compression de type ATRAC. Parmi ses nombreux avantages, il peut gérer de 2 ( 96 kHz / 24 bits ) à 8 canaux ( 48 kHz / 16 bits ). Il est donc compatible THX-Ultra. Vous retrouverez souvent ce logo à la toute fin des crédits d'un films.

Arkamys est un système acoustique inventé par une équipe française. Il permet de crér un relief sonore donc de simuler un son multicanal à partir d'une source stéréo voir même mono Arkamys permet donc un plus faible investissement dans le matériel home cinéma.

C'est ce que pensent les ingénieurs qui travaillent pour la chaîne japonaise NHK. Ils sont déjà à la pointe de l'innovation vidéo pour la Super Hi-Vision, quatre fois la résolution de la 4K, cela aurait été dommage de ne pas en rajouter aussi côté son. Et pas qu'à moitié, puisque par rapport aux 7.1.2 canaux du Dolby Atmos actuel, NHK propose de passer directement à 22.2 canaux.

La NHK multiplie les canaux, mais elle simplifie au passage les enceintes. Dans les configurations Dolby et DTS en 5.1, 7.1, en Atmos ou en DTS : X avec deux ou quatre enceintes au plafond, l'accent est toujours mis sur la qualité des enceintes. Il faut des enceintes de façade identiques, de qualité et donc au volume plus ou moins imposant. Il en va de même pour les enceintes surround qui devront idéalement faire partie de la même famille que les enceintes avant. La facture monte très vite dès que l'on multiplie les enceintes.

NHK simplifie les enceintes puisqu'elle conseille l'usage de mini satellites pour chacun des 22 canaux. Il faut bien sûr qu'ils soient tous identiques, mais leur nombre est tellement important qu'ils vont recréer un bain sonore bien plus important que leurs qualités intrinsèques. Inutile donc de chercher de grosses enceintes dédiées au home cinema, ici ce n'est pas le but. Les satellites sont complétés par deux canaux de grave ( LFE ) distincts, donc deux caissons.

Toutes ces enceintes sont organisées en trois plans :: haut avec 9 enceintes, 4 dans les angles hauts de la pièce, 4 au milieu des murs en haut et 1 au centre du plafond; milieu avec 10 enceintes au niveau des oreilles, 2 sur les côtés, 3 à l'arrière et 5 en façade derrière l'écran; bas - avec 3 enceintes en façade au niveau du sol et les 2 caissons de basses

Dans l'idée, on est assez proche d'un placement à la Auro-3D. Mis à part ces canaux de sol, positionnés sous l'écran, qui vont permettre d'offrir une vraie verticalité au message sonore en correspondance avec l'action à l'écran. NHK travaille depuis des années sur le format 22.2. La sortie des premiers écrans 8K et la captation d'événements en Super Hi-Vision remettent le 22.2 sur le devant de la scène. Dans la vidéo ci-dessous, vous pouvez voir une démonstration effectuée il y a quelques mois lors d'un salon.

Le format 22.2 est aussi appelé MPEG-H et c'est celui qui a été retenu pour la diffusion de la TV en 8K, c'est-à-dire qu'au Japon, lorsque l'on recevra de la 8K à la TV, elle sera accompagnée d'un signal audio multicanaux en 22.2. Même si les enceintes sont de petits satellites tous identiques, nous ne sommes pas certains que leur intégration dans nos intérieurs sera réellement facilitée. Imaginez déjà le nombre de câbles à passer. Attendons de voir maintenant si le MPEG-H sera aussi retenu chez nous lors du lancement de la 8K. Ne vous pressez pas, on a encore quelques années devant nous pour réfléchir au placement de 22 enceintes et 2 caissons dans le salon.