Géométrie des pixelsGéométrie des pixels

Analogique/Numérique et Rapport de pixels en SDTV | Pierre Boureau


Cet article est très largement inspiré de A Quick Guide to Digital Video Resolution and Aspect Ratio Conversions, de Jukka Aho, et de A Guide to Picture-Size, publié en 2006 par la B.B.C.

C’est quoi un pixel ?

Le pixel (contraction de l’anglais « picture element » - morceau d’image) est un terme relatif à l’imagerie numérique. Il désigne communément un petit carreau élémentaire constituant la plus petite partie d’une image numérique. On l’assimile souvent à un point. Une image numérique est ainsi caractérisée par sa taille, exprimée en unité de distance L/H, et sa résolution, qui elle s’exprime en points par unité de distance (ex : point par pouce - dpi). Le produit de la surface de l’image par sa résolution fournie le nombres de pixels.

Il ne faut pas perdre de vue que la notion même de pixel n’avait aucune espèce de pertinence auparavant, lorsque toutes les images étaient analogiques. Un négatif photographique est composés de grains d’argent, plus ou moins fin, disséminés sur la surface du film ; une image vidéo analogique est composée de lignes produites par le balayage de l’écran par un canon à électrons à une vitesse déterminée... Leur conversion en images numériques suppose donc un échantillonnage, c’est-à-dire le découpage méthodique d’un flux d’informations continu en données quantifiables.

Pour simplifier, numériser une image revient donc à poser une grille sur la surface de l’image analogique pour enregistrer ensuite individuellement chaque petit carreaux composant cette grille. La forme et la finesse de la grille déterminera les caractéristiques de l’image numérique produite. Si la grille est trop grossière, l’échantillonnage est insuffisant. Il en résultera une perte d’information, une dégradation de la qualité de l’image.

Mais à l’inverse, si la grille est trop fine, des informations risquent d’être enregistrées inutilement, ­ n’apportant aucun détail supplémentaire – on ne ferait qu’alourdir la quantité d’informations nécessaires pour reproduire l’image.

Dans le domaine de la vidéo traditionnelle, qui a une définition standard – disons la SDTV, par opposition à la HDTV-, le besoin de définir une méthode de transformation de l’image analogique en image numérique s’est posé de façon particulière.

De l’analogique au numérique

- Un peu d’histoire
Le tournant du numérique était une occasion importante pour harmoniser les différents systèmes analogiques pré-existants !

En effet, dans cette seconde moitié du XXème siècle, si vous vouliez faire développer vos négatifs-photos de vacances aux États-Unis, en France ou ailleurs, pas de problème ! Les films étaient rigoureusement identiques à New-York, Paris, Bamako ou Tokyo. Mais il en allait bien autrement pour la télévision !

Trois grands standards analogiques sont apparus dans les années 1950, avec la télévision couleur : NTSC, PAL, et SECAM. Chacun avec ses propres caractéristiques techniques, ses propres zones géographiques d’implantation ; les échanges d’image d’un standard à l’autre passaient par des conversions couteuses et de qualité très médiocre. Les anglais (PAL) avaient une phrase pour décrire le système américain (NTSC) : « Never Twice the Same Colour » - Jamais deux fois la même couleur, allusion à la faiblesse majeure de ce dernier. Les français (SECAM) quand à eux utilisaient un système dont ils étaient très fiers. Ils l’avaient inventé ! Le problème, c’est qu’ils étaient aussi les seuls à l’utiliser. Excellent format de diffusion hertzienne, il s’est avéré calamiteux en post-production !

Les problèmes d’inter-opérabilité entres ces différents systèmes ont empoisonné la vie de la plupart des protagonistes de cette histoire, fabricants de matériel, ingénieurs et techniciens... Les vieilles normes PAL et NTSC avaient été conçus pour ménager la compatibilité du signal couleur avec les équipement Noir-et-Blanc du passé, reposant sur des normes définie dans les années 1940. Avec l’arrivée de la vidéo numérique et l’émergence de la de la micro-informatique, il devenait urgent de reprendre le travail, et si possible, simplifier !!!

- Une transition s’amorce
La vidéo numérique ne s’est pas construite indépendamment des réalités de la vidéo analogique traditionnelle. La plupart des formats vidéos modernes ont une relation étroite avec les anciens formats. Car en réalité, ce sont bien ces formats analogiques traditionnels qui ont déterminé la géométrie des formats de la SDTV. La forme des pixels de la vidéo numérique est ainsi issue des caractéristiques des grands systèmes analogiques du passé, et ceci même si nous tendons à travailler aujourd’hui dans des environnements 100% numériques !

Du point de vue des industriels, il était impensable que les nouveaux formats soient incompatibles avec le parc de matériel analogique existant. Des sommes énormes avaient été investies dans les équipements, caméras, magnétoscopes, amplificateurs, et personne n’envisageait sérieusement de jeter tout cela à la poubelle. Il était clair que l’ensemble des acteurs souhaitaient créer un pont entre analogique et numérique afin de minimiser les problèmes de compatibilité avec les équipements existants.

C’est la tâche que s’est fixée à la fin des années 1970 l’International Telecommunication Union (I.T.U), un organisme basé à Genève (Suisse) et regroupant États et Industriels. Son rôle principale est d’édicter des recommandations techniques en vue d’harmoniser les pratiques des industriels à l’échelle mondiale. Et c’est ainsi qu’est née en 1982 la recommandation ITU-R BT.601 (aussi appelée CCIR-601), une proposition décrivant de façon exhaustive ce que devrait être une image vidéo numérique ! Et si nous en parlons encore aujourd’hui, c’est qu’elle a eu un certain succès !

- Le signal vidéo Analogique
Avant d’envisager la conversion analogique/numérique, il est bon de rappeler brièvement les caractéristiques principales du signal vidéo analogique.

Un flux PAL (ou SECAM) se compose de 50 trames (ou demie-images) entrelacées deux par deux. À 25 images par seconde, le balayage de chaque trame dure donc 1/50ème de seconde. La durée de chaque trame a été choisi à l’origine en regard des caractéristiques du courant alternatif (en Europe, 50Hz). Chaque trame comporte par ailleurs 312,5 lignes.

À de nombreux égards, le flux vidéo se comporte comme s’il était composé de 25 images de 625 lignes à chaque seconde. Ce système est souvent désigné par « 625/50 ».Mais sur ces 625 lignes, seulement 576 sont dites « actives » car décrivant l’image utile. Les autres lignes, reparties en haut et en bas de l’image, portent des données nécessaires au fonctionnement du système analogique qui ne participe pas à la description de l’image proprement dite (signaux de synchronisation, télétexte, etc...). Elles pourront donc être négligées dans les calculs qui vont suivre.

Chacune de ces lignes est produite par un faisceau d’électron balayant le champs de l’image dans toute sa largeur en 64μs, dont 52μs seulement forment l’image utile.

Pour simplifier le raisonnement, nous nous intéresserons uniquement au signal de luminance de l’image, soit sa version Noir-et-Blanc. Considérons donc qu’on branche un câble à la sortie d’un magnétoscope analogique et qu’on cherche à découper les variations du signal de luminance en tranche à intervalle régulier. Quelle devrait être la fréquence d’échantillonnage de ce signal, et quelles seraient les dimensions idéales en pixels de l’image résultante ?

Comme la résolution verticale de l’image d’origine ne peut pas excéder le nombre de ligne du signal, on découperait volontiers l’image dans sa hauteur en 576 échantillons ! Mais alors quelle résolution horizontale choisir ? Le bon sens voudrait qu’on produise des pixels carrés, des échantillons dont les deux dimensions soient égales, de façon à obtenir une grille régulière. La fréquence d’échantillonnage (exprimée en Hertz) est l’inverse de la période (exprimée en secondes). Ainsi, si on part d’une image 625/50Hz, qui comporte 576 lignes actives, chacune durant 52μs, pour générer une image dans un rapport de 4/3, nous devrions chercher à produire 576 x 4/3 = 768 échantillons par ligne. La fréquence théorique d’échantillonnage serait alors de :

14,769

Chacune des 576 lignes serait ainsi découpée en exactement 768 tranches de 0,067μs.C’est en tout cas sur cette base que les fabricants de matériel numérique PAL ont défini, à la fin des années 1970, le taux d’échantillonnage du signal de luminance, qui est devenu un standard de fait : 14,75 MHz

À cette fréquence, la ligne de 52μs serait découpée en 52 x 14,75 = 767 échantillons. Mais on peut aussi échantillonner sur une période plus longue, légèrement au-delà de l’image utile, afin de ménager une marge d’erreur : 768/767 x 52 ≈ 52,0678 μs...

Évidemment, ces caractéristiques ne conviennent pas au NTSC, dont les principales caractéristiques sont : 525 lignes, dont 486 sont utiles, une fréquence de 60x(1000/1001)≈59,94Hz [1]. Les américains et les japonais ont développé leurs propres appareils sur les spécifications du standard industriel SMPTE 244, qui utilise la valeur de 12+3/11 MHz, soit à peu près 12,2727... MHz

Pour l’harmonisation, rien n’est encore gagné !

La recommandation ITU-R BT.601, une norme de transition

Au début des années 1980, lorsque l’I.T.U. tente de définir les contours d’un pont entre vidéo analogique et numérique, celle-ci cherche des caractéristiques compatibles avec les deux systèmes. L’idée n’est pas de faire adopter un standard unique à tout le monde, mais bien de faciliter la fabrication d’appareils multistandard et les échanges entre les environnements. On espère une harmonisation totale des systèmes dans une phase ultérieure, une fois la transition analogique/numérique achevée.

Ainsi, dans l’idéal, la fréquence d’échantillonnage de la luminance devrait être un multiple commun de la fréquence ligne de chaque système (le nombre de lignes par secondes), soit respectivement 625x25=15625Hz et 525x29,97=15734,25Hz. D’où la préconisation d’une valeur intermédiaire aux deux standards industriels fixé à :

Fréquence ITU-R BT.601 = 13,5 MHz

soit exactement 864 fois la fréquence ligne des systèmes 625/50, et 858 fois celle du système 525/59,94.Cette fréquence d’échantillonnage induit forcément une résolution horizontale des images ; Pour les système 625/50, on obtiendrait :

13,5MHz x 52μs x (768/767) ≈ 702,916... échantillons

Pour le système 525/59,94 :

13,5 MHz x (52+59/90) ≈ 710,85... échantillons

Mais alors un sérieux problème se pose ! Car comparées à leur nombre de lignes, ces différentes dimensions horizontales ne sont plus du tout dans le rapport Largeur/Hauteur de leur image d’origine, qui est de 4/3 !

4/3≈1,333...
702/576=39/32≈1,21875
711/486=79/54≈1,4629...

Affichées sur un moniteur informatique, les images résultantes se trouveraient déformées, anamorphosées de façon fantaisiste !!!

- Des pixels rectangulaires
L’ITU préconise donc conjointement une autre (r)évolution en normalisant la largeur de l’image, qu’elle fixe à 720 pixels pour les deux systèmes ! Et elle introduit la notion de pixels rectangulaires. L’anamorphose de l’image doit ainsi se voir compensée par un « étirement » inverse de chaque pixel pour reproduire les proportions d’origine !

Les pixels sont donc dorénavant caractérisés par leur rapport L/H (Anglais : Pixel Aspect Ratio – P.A.R.), et celui-ci n’est plus nécessairement égale à 1:1. Et nous allons voir que si ces recommandations, largement reprises depuis, facilitent la vie des industriels, elles ont également induit une certaine confusion...

- Pourquoi 720 pixels ?
D’abord, cette valeur est le premier multiple de 16 pouvant contenir la totalité des pixels horizontaux échantillonnés à 13,5MHz pour les deux systèmes ! Or les formats de compression numérique, en particulier ceux développés par le Motion Picture Experts Group (M.P.E.G.), sont généralement basés sur un matriçage de groupes de 16x16 pixels. La divisibilité des dimensions d’une image par 16 augmente donc sensiblement l’efficacité de ce type de codecs. L’I.T.U. a voulu en tenir compte.

Pour les systèmes 625/50, il en résulte la préconisation d’un échantillonnage selon une grille de 720x576. Les deux dimensions sont des multiples de 16. Tout va bien !

Pour le 525/59,94, l’I.T.U. propose 720x480, ce qui implique un léger recadrage de l’image NTSC d’origine et une perte de 6 lignes lors de la numérisation pour ménager la divisibilité par 16 ! Cette norme a fait débat. En 1986, lorsque Sony lance le D1, il choisit 720x486, mais le format préconisé par l’ITU-R BT.601 finira là aussi par s’imposer.

Le fait que la largeur choisie soient légèrement supérieure à la valeur idéale permet également de retrouver une marge d’erreur ! Car on sait, au début des années 1980, que les équipement analogiques ne vont pas disparaître instantanément ! Échantillonner un peu plus que le signal théoriquement utile garantie que l’image numérisée contiendra quoi qu’il arrive l’intégralité de l’image analogique dans sa dimension horizontale. La contrepartie, c’est que l’image numérique est objectivement plus large que l’image analogique, et que les bords latéraux de l’image numérisée risquent de ne pas être très propres...

- Une marge d’erreur
Le SMPTE (Society of Motion Picture and Television Engineers), concurrent américain de l’I.T.U., propose également avec la norme SMPTE RP 187-2002 quelques notions intéressantes. Il définit ainsi le « cadre de production » (ou ouverture de production), la « zone nette » (ou ouverture propre) et la région de traitement de contours.

Le cadre de production représente l’intégralité de l’image utile pour un format donné. Pour une image SD Pal, ce cadre est ainsi un rectangle de 720x576 pixels.

Radio-Canada, dans un glossaire « Terminologie Recadrage » publié en 2007 décrit la zone nette ainsi : « Portion d’image d’un rapport similaire à celui du cadre de production, ayant une surface légèrement inférieure, centrée dans le cadre de production, qui ne devrait pas contenir d’artefacts de traitement de contour. »

La région de traitement de contours est ainsi la zone du cadre de production exclue de la zone nette. C’est un peu l’équivalent numérique de ce qu’était l’Overscan pour l’analogique. À l’heure où le parc de téléviseurs, à l’échelle mondiale, tend à à voir disparaître les écrans cathodiques traditionnels, cette région de traitement de contours est une notion bien plus pertinente que le généreux overscan analogique !

Vers le tout numérique

- Rapport de pixels - Rapport d’affichage
Il nous faut donc dorénavant jongler avec les pixels rectangulaires !

Avant toute chose, on ne doit pas confondre le rapport d’affichage Largeur/Hauteur d’une image (D.A.R – Display Aspect Ratio) et le rapport d’aspect d’un pixel (P.A.R. - Pixel Aspect Ratio).

Ainsi, si une image de 400x300px est composée de pixels rectangulaires de rapport 4:3, le rapport d’affichage résultant sera de : (400/300) x (4/3) = 16/9. En bon français, on pourra dire que « déformer horizontalement une image de rapport 4:3 dans des proportions de 4:3 donnera une image de rapport 16:9 » !

Tiens ?! Ces pixels rectangulaires, initialement censés harmoniser les systèmes, devraient pouvoir nous resservir à l’avenir !!!

- Valeurs des rapports de pixels (P.A.R.)
Une documentation importante décrivant le système 525/59,94 existant déjà sur Internet, concentrons maintenant sur le système 625/50, en attendant que la HDTV réconcilie vraiment tout le monde !

Pourquoi la maîtrise de ces P.A.R. est-elle si importante pour les graphistes et les monteurs vidéo ? Après tout, matériel et logiciels ont été conçus pour tenir compte de ces subtilités. Pourquoi l’utilisateur devrait-il se pencher sous le capot de cette machine infernale ? Quelle que soit la valeur de déformation horizontale, tant qu’elle est symétrique à l’entrée et à la sortie de l’espace d’affichage de l’image vidéo, il ne peut rien arriver !

La raison la plus simple est que, si les logiciels de montage tiennent bel et bien compte des réglages d’un projet, les caractéristiques du projet ne sont pas toujours les mêmes que celles des différents éléments importés. Ainsi une photographie numérique, issue d’un environnement en pixels carrés, devra subir une transformation pour être intégré à un projet vidéo. Laquelle ?

On pourrait sans doute faire confiance aux logiciels pour traiter ces questions complexes, mais tous ne gèrent pas les pixels rectangulaires. De plus, le passé nous a montré que les développeurs ne révisent pas toujours leurs tables. Ainsi, pendant des années, des logiciels comme Adobe Photoshop, ou Adobe After Effects, qui se prévalaient de gérer correctement les pixels rectangulaires, ont utilisé des valeurs de conversion d’aspect erronées ! La prise en charge de valeurs de P.A.R. corrigées ne sont apparues qu’en 2008, avec la suite Adobe CS4, comme le confesse la documentation officielle d’After Effects. Tous les éléments graphiques destinés à la SDTV et traités par ses outils largement répandus étaient jusqu’à récemment légèrement déformés !

Mieux vaut donc bien savoir d’où vient un fichier numérique, et quelles en sont ses caractéristiques précises ! Ses dimensions d’affichage ne nous aideront pas nécessairement !!! Des formats récents, comme .mp4 ou .mxf, permettent maintenant d’intégrer la valeur du P.A.R. aux métadonnées du fichier de façon normalisée. La valeur de P.A.R. de la HDTV est également bien moins complexe. L’avenir se dégage, donc. Mais les archives ne vont pas disparaître !

La table ci-dessous tente de résumer les principales valeurs évoquées dans le présent document.

Table de conversions
Matrice Fréquence d’échantillon. (MHz) P.A.R. Durée Ligne (µs) Taille réelle image active entrelacé notes
Larg. Haut. Larg. Haut.
768 576 14.75 768/767 52,06780 767 576 Y « Industry Standard » 625/50 en pixels (presque) carrés
768 576 14 + 10/13 1/1 52,00000 768 576 Y ’Vraie’ résolution en pixels carrés(a)
720 576 13,5 128/117 53,33333 702 576 Y D1, DV, DVB, DVD
720 576 13,5 512/351 53,33333 702 576 Y DV Grand Écran
702 576 13,5 128/117 52,00000 702 576 Y Image active du système 625/50 en pixels ITU-R BT.601-4.
(a). Fréquence théorique calculée. Elle ne correspond à aucun matériel vidéo existant

Pour mieux comprendre, reproduisons l’erreur commune.

Ainsi donc, considérons un projet DV PAL Standard (4/3). Celui-ci a été échantillonné à 13,5MHz selon les spécifications de la norme - désormais bien connue - ITU-R BT.601, produisant ainsi un fichier informatique de 720x576px. Pour l’afficher dans un espace à pixel carré, comme l’est un écran d’ordinateur, la logique voudrait donc qu’on lui applique un facteur de déformation horizontale de :

1,0666

Inversement, pour intégrer une photographie numérique ou un élément graphique à pixels carrés au projet vidéo, Adobe préconisait la fabrication d’éléments de 768x576 pixels qui seraient ensuite contractés horizontalement avec le même facteur de déformation pour s’intégrer au projet !

Pourtant, il s’avère que le raisonnement est faux ! Cette valeur provoque une déformation de l’image importée de l’ordre de 3%. La largeur de la matrice Rec.601 est supérieure de 18 pixels à celle de la ligne active PAL, comme le montre la table de conversions ! Le ratio d’aspect réel d’un pixels vidéo PAL Standard est en fait de 1,094 et non 1,066.

Ainsi, pour intégrer sans aucune déformation un éléments graphique à pixels carrés dans un projet vidéo DV PAL Standard, nous devrons utiliser une matrice de (720x128/117) x 576 pixels, soit en arrondissant 788x576px.

Pour un projet PAL Widescreen, il nous faudra un élément de (720x512/351) x 576, soit 1050x576 px, et non pas les 1024x576, valeur souvent rencontrée par le passé. Les pixels extrèmes des bords lateraux du graphique devraient se perdre dans le traitement ultérieur (recadrage), mais les proportions 4:3 ou 16:9 seront correctement préservées !

- En résumé
Si on utilise un programme en pixels carrés en vue d’intégrer des graphiques dans un projet de montage SD PAL, on devra veiller à choisir la taille du fichier à créer de façon à ne pas générer de déformation :

  • 4:3 DV ou D1 (PAL) : 788 x 576
  • 16:9 DV ou D1 (PAL) : 1050 x 576

La table de conversion présente des valeurs de PAR exprimées en fraction. Il est à noter que les valeurs préconisées par la l’ITU Rec.601 sont légèrement différentes. Fréquemment rencontrées sur internet, elles considèrent que les pixels du standard industriel sont carrés, ce qui est une approximation. Le rapport entre les deux est de 768/767, ce qui est négligeable si on arrondit la valeur de PAR à trois décimales. On trouve ainsi :

FormatP.A.R.Détails
Pixels Carrés 1 Facteur de déformation d’une photographie numérique ou d’un clip issus de logiciels ne gérant pas les pixels rectangulaires
D1/DV PAL Standard 1,094 Facteur d’anamorphose d’un clip de rapport 4:3 dont les dimensions sont 720x576 pixels
D1/DV PAL Widescreen 1,459 Facteur d’anamorphose d’un clip de rapport 16:9 dont les dimensions sont 720x576 pixels
D1/DV NTSC Standard 0,91 Facteur d’anamorphose d’un clip de rapport 4/3 dont les dimensions sont 720x486 pixels ou 720x480 pixels
D1/DV NTSC Widescreen 1,21 Facteur d’anamorphose d’un clip de rapport 16/9 dont les dimensions sont 720x486 pixels ou 720x480 pixels

Notes

[1Voir : Why 59.94 Hz ?

Ajouter un commentaire


SPIP v.3.0.17 [21515] | | Plan du site | Suivre la vie du site RSS 2.0