Reconstruction faciale 3D avec repères denses

Find AI Tools in second

Find AI Tools

No difficulty

No complicated process

Find ai tools

Home AI NEW FR Reconstruction faciale 3D avec repères denses

Updated on Mar 07,2024

Reconstruction faciale 3D avec repères denses

Introduction
Importance of Dense Landmarks in Face Analysis
The Limitations of Typical Landmark Sets
Predicting Probabilistic Dense 2D Landmarks
Fitting a 3D Face Model to Landmarks
Training the Landmark Predictor with Synthetic Data
Comparison with MediaPipe Attention Mesh
The Rich Signal Provided by Dense Landmarks
Robustness and Efficiency of the System
Markerless Facial Performance Capture
Achievements and Reliability of the Approach
Achieving Real-Time Performance on Laptop CPUs
Conclusion

Introduction

Dans ce travail, nous vous montrerons que des repères denses sont tout ce dont vous avez besoin pour une reconstruction faciale 3D précise, robuste et efficace dans des environnements réels. Les repères jouent souvent un rôle clé dans l'analyse faciale, mais de nombreux aspects de l'identité ou de l'expression ne peuvent pas être représentés par un ensemble typique de 68 repères. Nous présentons ici la première méthode qui prédit avec précision dix fois plus de repères que d'habitude, couvrant toute la tête, y compris les yeux et les dents. Notre approche se Compose de deux étapes. Tout d'abord, nous prédisons des repères 2D denses de manière probabiliste en utilisant un réseau de neurones convolutif traditionnel. Chaque repère est prédit comme une variable aléatoire, avec une distribution gaussienne circulaire 2D qui inclut la position et l'incertitude. Ensuite, nous ajustons un modèle facial 3D paramétré par Phi aux repères 2D en minimisant une fonction d'énergie. Les images elles-mêmes ne Font pas partie de cette optimisation; les seules données utilisées sont les repères 2D. Nous entraînons notre prédicteur de repères avec des données synthétiques, ce qui garantit des étiquettes de repères denses parfaitement cohérentes, car tandis qu'un humain pourrait étiqueter de manière cohérente des images faciales avec 68 repères, il serait presque impossible pour eux d'annoter une image avec des repères denses sans données d'entraînement synthétiques. Noss résultats ne seraient pas possibles sans cela. Voici quelques exemples de prédictions de repères denses probabilistes - des repères que le CNN est certain de, par exemple, sont indiqués en Vert. En revanche, les repères que le CNN n'est pas sûr de, par exemple, les repères occultés à l'arrière de la tête ou derrière une tasse de café, sont indiqués en rouge.

Importance of Dense Landmarks in Face Analysis

Les repères denses jouent un rôle essentiel dans l'analyse faciale, offrant un signal riche pour l'identité et l'expression. Contrairement à un ensemble typique de 68 repères, les repères denses captent plus de détails et permettent une analyse plus précise. Grâce à notre méthode, nous sommes en mesure de prédire jusqu'à 10 fois plus de repères, y compris ceux couvrant toute la tête, notamment les yeux et les dents. Cela nous permet de mieux comprendre les caractéristiques uniques de chaque individu et de capturer avec précision leurs expressions faciales.

Limitations of Typical Landmark Sets

Bien que les ensembles typiques de 68 repères soient couramment utilisés dans l'analyse faciale, ils ont leurs limites. Ces repères sont souvent insuffisants pour capturer tous les détails et variations des visages humains. Les repères denses, en revanche, permettent de capturer et de représenter de manière plus précise les différentes caractéristiques du visage, y compris celles qui ne sont généralement pas prises en compte par les ensembles de repères traditionnels.

Predicting Probabilistic Dense 2D Landmarks

Notre approche se distingue en prédissant des repères denses 2D de manière probabiliste. Au lieu de prédire simplement la position des repères, nous les traitons comme des variables aléatoires avec des distributions gaussiennes circulaires 2D qui incluent à la fois la position et l'incertitude. Cette approche permet de capturer la variabilité et l'ambiguïté inhérentes aux repères faciaux, en fournissant des informations plus riches sur la localisation des repères et leur fiabilité.

Fitting a 3D Face Model to Landmarks

Une fois les repères denses 2D prédits, nous ajustons un modèle facial 3D aux repères en minimisant une fonction d'énergie. Ce processus nous permet de créer une représentation tridimensionnelle détaillée du visage, prenant en compte les variations dues aux expressions et aux différences individuelles. En utilisant cette approche, nous sommes en mesure de capturer avec précision les caractéristiques uniques de chaque individu et de fournir une reconstruction faciale 3D réaliste.

Prior Knowledge and Regularization

Lors de l'ajustement du modèle facial 3D aux repères prédits, nous utilisons des connaissances préalables pour régulariser l'ajustement. En plus de la donnée des repères, nous intégrons des contraintes de connaissance préalable pour améliorer la précision et la cohérence du modèle ajusté. Cela nous permet d'obtenir des ajustements plus stables et plus fiables, même lorsque les repères denses ont une certaine incertitude.

Training the Landmark Predictor with Synthetic Data

Pour former notre prédicteur de repères, nous utilisons des données synthétiques. Cela nous permet d'obtenir des étiquettes de repères denses parfaitement cohérentes, ce qui serait difficile à réaliser avec des données réelles étant donné la difficulté d'annoter des repères denses sur les images. En utilisant des données synthétiques, nous pouvons garantir la cohérence et l'exactitude des étiquettes de repères, ce qui améliore la performance de notre prédicteur et la qualité des résultats obtenus.

Pros:

Des étiquettes de repères denses parfaitement cohérentes grâce à l'utilisation de données synthétiques.
Amélioration de la performance de notre prédicteur de repères.

Con:

Nécessité de créer et de générer des données d'entraînement synthétiques.

Comparison with MediaPipe Attention Mesh

Nous comparons notre méthode avec MediaPipe Attention Mesh, qui est une méthode publiquement disponible pour la prédiction de maillages faciaux. Bien que notre approche soit tout aussi efficace, elle gère mieux les expressions faciales et fournit une représentation plus précise de l'identité du sujet. Cette amélioration peut être attribuée à la nature de nos données d'entraînement synthétiques, qui offrent une diversité et une fiabilité inégalées.

The Rich Signal Provided by Dense Landmarks

Les repères denses que notre méthode prédit fournissent un signal riche pour l'identification et l'expression faciale. Ces repères captent les détails subtils des visages humains, y compris les petites variations et les mouvements d'expression. En utilisant ces repères denses, nous sommes en mesure d'obtenir des reconstructions faciales 3D plus détaillées et réalistes, ce qui améliore la compréhension des caractéristiques uniques de chaque individu.

Robustness and Efficiency of the System

Notre système se distingue par sa robustesse et son efficacité. Nous avons démontré sa capacité à capturer des performances faciales sans marqueurs de plus de 100 sujets différents, en collectant de manière entièrement automatique une vaste base de données de plus de 125 000 expressions faciales. Ceci met en évidence la fiabilité et l'efficacité de notre approche, qui s'adapte naturellement à un nombre variable de caméras tout en maintenant des performances robustes.

Markerless Facial Performance Capture

En utilisant notre système, nous sommes en mesure de capturer des performances faciales sans avoir besoin de marqueurs. Cela simplifie considérablement le processus de capture en éliminant la nécessité de marquer manuellement les points clés du visage. Au lieu de cela, notre système prédit automatiquement des repères denses pour chaque frame, ce qui permet une capture plus fluide et plus précise des expressions faciales.

Achievements and Reliability of the Approach

Grâce à notre approche, nous avons réalisé des avancées significatives dans la capture de performances faciales en temps réel. Nous avons réussi à effectuer la capture de performances faciales sans marqueurs sur plus de 100 sujets différents, ce qui a généré une base de données massive de plus de 125 000 expressions faciales. Cette réalisation démontre l'efficacité et la fiabilité de notre approche, qui offre des résultats de haute qualité.

Achieving Real-Time Performance on Laptop CPUs

Notre méthode peut être rapidement exécutée sur des processeurs de laptop grâce à notre architecture efficace MobileNetV2 pour la prédiction de repères denses, ainsi qu'un optimisateur basé sur la méthode de Levenberg-Marquardt pour l'ajustement du modèle. En utilisant un seul thread, notre système peut fonctionner en temps réel sur des CPUs de laptop, ce qui le rend accessible et utilisable dans des configurations courantes.

Conclusion

En conclusion, notre approche de reconstruction faciale 3D basée sur des repères denses prédits de manière probabiliste offre une solution précise, robuste et efficace pour l'analyse faciale. Grâce à notre méthode, nous sommes en mesure de capturer davantage de détails et de variations du visage, fournissant ainsi des modèles faciaux 3D réalistes et une compréhension approfondie de l'identité et des expressions de chaque individu. Notre système a été démontré avec succès en capturant des performances faciales sans marqueurs de plus de 100 sujets, établissant ainsi une base de données massive de plus de 125 000 expressions faciales. Avec son efficacité et sa fiabilité, notre approche est prête à être utilisée dans une variété d'applications nécessitant une reconstruction 3D précise et détaillée de visages.

Découvrez DW Pose : suivi avancé du corps et des mains avec Automatic 1111

Gagnez un temps précieux avec cette application gratuite de carte mentale IA