Cravates, smartphones, sac…
Pour ce démonstrateur, les objets que nous avons décidé d’identifier sont : les cravates, les smartphones, les sacs (sacs à main, sacs à dos, cabas), les personnes. Nous avons choisi pour ce faire l’algorithme « Faster R-CNN » qui permet de segmenter les objets (isoler des régions dans l’image contenant les différents objets que l’on recherche). Cet algorithme a besoin, pour un fonctionnement optimal, de ressources matérielles performantes afin d’avoir des résultats dans des délais raisonnables.
Une détection toutes les 2 secondes
Pour mesurer efficacement la fréquentation d’un salon, nous avons jugé suffisant d’avoir des mises à jour de détection d’objets toutes les 2 s en exploitant les performances de la carte graphique. En effet, pour la plupart des algorithmes de « Deep Learning », la précision vient d’un apprentissage (entraînement) sur un nombre important de références nécessitant des ressources matérielles importantes pour aller vite. De plus, la fréquence de mise à jour de la segmentation, au sein du flux vidéo, nécessite de la ressource pour avoir un rafraichissement agréable dans l’interface graphique.
Deep learning et data
Dans notre cas, les objets que nous avons choisi de reconnaître ont été appris sur des millions d’exemplaires afin de pouvoir prendre en compte :
- le contexte : par exemple une cravate est mieux reconnue si elle est nouée ou encore une personne peut être détectée à partir de sa main,
- les changements d’orientation,
- les changements d’éclairage.
Les analyses statistiques
L’interface graphique, développée sous Python, présente des statistiques de fréquentation (nombre de personnes) sur le dernier quart d’heure pour avoir une information « en live » et une courbe sur la journée qui est comparée à la veille.