6 points par GN⁺ 2025-06-16 | 1 commentaires | Partager sur WhatsApp
  • Un ouvrage sur les bases de la vision par ordinateur, destiné aux débutants et aux lecteurs de niveau intermédiaire, abordé sous l’angle du traitement d’image et du machine learning
  • Chaque chapitre est court et clair afin de se concentrer sur les concepts essentiels
  • Explique, à travers l’expérience d’écriture du livre, les changements survenus après la révolution du deep learning et la manière dont les idées classiques ont été réorganisées
  • En 15 parties, couvre l’ensemble de la vision par ordinateur, notamment le traitement d’image, les réseaux de neurones, les modèles génératifs, le traitement de séquences et la compréhension de scène
  • La structure met l’accent sur la construction des bases théoriques et de l’intuition, plutôt que sur les tendances de recherche les plus récentes ou des applications particulières

Préface

  • Dédié à tous les pixels

À propos de ce livre

  • Ce livre traite des sujets fondamentaux de la vision par ordinateur du point de vue du traitement d’image et du machine learning
  • Il comprend de nombreux supports de visualisation pour aider le lecteur à développer son intuition
  • Le public principal visé est celui des étudiants de licence et de master qui débutent en vision par ordinateur, mais il est aussi utile aux praticiens expérimentés
  • L’objectif initial était de couvrir une matière très vaste, mais en raison de l’ampleur du domaine, chaque chapitre a été limité à 5 pages maximum afin de se concentrer sur les concepts clés
  • Les auteurs partagent avec franchise le fait qu’ils voulaient écrire un livre court, mais qu’il a finalement pris une grande ampleur

Le processus d’écriture du livre

  • À l’aide de données, les auteurs montrent la non-linéarité entre leur intention de départ et le processus réel, et indiquent que plus de 10 ans ont été nécessaires pour achever l’ouvrage
  • Au cours de l’écriture, la révolution du deep learning (2012) s’est produite, entraînant un processus de fusion entre méthodes traditionnelles et approches modernes
  • Avec la popularité initiale du deep learning, certaines idées antérieures ont été temporairement oubliées, avant que les concepts essentiels ne soient remis en lumière avec le temps
  • Bien que ce parcours d’écriture ait été difficile, les auteurs mentionnent avoir beaucoup appris en réalisant eux-mêmes divers exemples et expériences
  • L’ouvrage montre visuellement comment les grands événements de la vision par ordinateur et de l’IA ont évolué en parallèle des périodes d’écriture du livre

Structure du livre

  • Le domaine de la vision par ordinateur a connu des avancées rapides au cours des dix dernières années, et même si les méthodes actuelles semblent très différentes de celles du passé, le livre souligne une continuité historique
  • Tout au long du livre, l’importance d’un thème unifié et d’un point de vue cohérent, ainsi que celle de perspectives variées, est régulièrement mise en avant
  • Le livre est structuré en 15 parties, chacune se concentrant sur un thème cohérent de la vision par ordinateur

Présentation de chaque partie

  • Part I: introduction à la motivation des problèmes de vision par ordinateur, à leur contexte social et aux bases mathématiques
  • Part II: processus de formation des images
  • Part III: explication des concepts fondamentaux du machine learning à partir d’exemples d’images
  • Part IV: introduction au traitement du signal et de l’image
  • Part V: filtres linéaires utiles (noyau gaussien, filtres binaires, dérivées d’image, laplacien, filtres temporels) et leurs applications
  • Part VI: représentations d’images multi-échelles
  • Part VII: réseaux de neurones pour la vision par ordinateur (réseaux de neurones convolutifs, réseaux de neurones récurrents, transformeurs)
  • Part VIII: modèles statistiques des images et modèles graphiques
  • Part IX: approche moderne centrée sur les modèles génératifs et l’apprentissage de représentations (comme les vector embeddings)
  • Part X: défis rencontrés lors de la construction de systèmes de vision fondés sur l’apprentissage
  • Part XI: outils géométriques pour la reconstruction de structures 3D
  • Part XII: traitement de séquences et mesure du mouvement
  • Part XIII: compréhension de scène et détection d’objets
  • Part XIV: conseils destinés aux jeunes chercheurs sur les présentations, la rédaction d’articles et un état d’esprit de recherche efficace
  • Part XV: tentative de résolution des problèmes présentés dans la Part I à l’aide des différentes méthodologies abordées dans le livre

Ce qui n’est pas couvert

  • Le livre ne traite pas des tendances les plus récentes en vision par ordinateur ni de divers domaines d’application pratiques (analyse de formes, suivi d’objets, analyse de mouvements, reconnaissance faciale, etc.)
  • Pour ces applications détaillées, il est plus efficace de se référer à des articles de conférence ou à des ouvrages spécialisés

Remerciements

  • Les auteurs expriment leur gratitude aux enseignants, étudiants et collègues qui ont influencé divers enseignements et recherches en vision par ordinateur
  • Ils mentionnent en détail leur reconnaissance pour différentes formes de collaboration, notamment des supports de cours issus de plusieurs conférences, des expérimentations, un soutien chapitre par chapitre et le design de la couverture
  • Chaque auteur remercie également sa famille et ses proches pour leur soutien constant

Informations de citation

  • Fournit un format BibTeX pouvant être utilisé pour citer l’ouvrage

Ressources pour le corps enseignant

  • La version imprimée du livre peut être achetée auprès de MIT Press
  • Des slides de cours associées au livre sont disponibles en ligne

Références

  • Fournit une liste d’ouvrages majeurs, classiques et récents, liés à la vision par ordinateur, au machine learning, au traitement du signal, à la géométrie et aux sciences de la vision

1 commentaires

 
GN⁺ 2025-06-16
Commentaires Hacker News
  • Il y a un passage intéressant dans le livre On Research, Writing and Speaking. « Ça a l’air difficile. » Oui. Être intelligent ne suffit plus pour faire la différence. L’idée partagée est qu’en école doctorale, ce sont les gens qui travaillent dur qui prennent l’avantage.

    • C’est vraiment une remarque très perspicace. À partir d’un certain point, tout le monde se rend compte que la seule connaissance ne suffit pas. Beaucoup ressentent cette limite en entrant à l’université. Mais à l’université, le périmètre d’apprentissage est défini, donc on peut encore s’en sortir par le niveau pur. En doctorat, en revanche, il n’y a pas de limite à ce qu’il faut apprendre. Il n’y a pas de quantité de lecture fixée, ni de « hors programme ». Il faut étudier, expérimenter, lire des articles, autant qu’on le peut, sans plafond. Il ne suffit pas d’être brillant : il faut aussi comprendre les soft skills, le réseau et le contexte de la communauté. Il faut rencontrer les gens du milieu, déjeuner avec eux, réseauter et garder le contact. Il faut aussi savoir se motiver seul, gérer ses échéances et sa routine. Contrairement à la motivation fournie par les cours et les examens, ici il faut tout gérer soi-même. Les critères sont flous et les attentes semblent infinies. On peut aussi découvrir le rejet, ce qu’on n’avait parfois jamais vraiment connu auparavant. Le doctorat est une période difficile qui pousse chacun dans ses retranchements. Si l’objectif est simplement d’obtenir le diplôme, on peut peut-être s’en sortir en faisant le minimum, mais les étudiants qui visent une carrière académique ont généralement des ambitions plus élevées.
  • Avec les évolutions technologiques des deux dernières années, quelqu’un travaillant dans le secteur demande si les contenus classiques en machine learning, et surtout en computer vision, restent toujours valables.

    • Oui, tout à fait. Les techniques les plus récentes restent fondamentalement des évolutions construites sur les mêmes bases. Il est même préférable de lire davantage sur les concepts fondamentaux et les algorithmes traditionnels. Bien connaître des techniques classiques comme la transformée de Hough, le détecteur de contours de Canny, SIFT ou Harris corner, c’est ce qui distingue un vrai spécialiste des développeurs qui se contentent de mémoriser les mots-clés du moment et de brancher des API.

    • Les méthodes « classiques » de computer vision restent indispensables, notamment dans les systèmes où l’accélération GPU est difficile. Je travaille concrètement sur des problèmes de Simultaneous localization and mapping dans des environnements aux ressources limitées. Je compte absolument lire le chapitre sur Structure from Motion.

  • Sur la section « Writing this book », quelqu’un estime qu’on pourrait croire que le LLM a rédigé les deux tiers du manuscrit. Il vaudrait mieux clarifier qu’il s’agit probablement du fait que le livre s’est allongé parce qu’il y avait davantage à écrire à cause des LLM.

    • Je ne l’ai pas compris comme ça. On dirait plutôt qu’au moment où ChatGPT est apparu, moins d’un tiers du livre avait été rédigé. J’y vois davantage une sorte de repérage graphique des événements majeurs du domaine ML/AI.
  • Comme autre bon livre dans le domaine de la computer vision, recommandation de l’ouvrage ci-dessous.

    Computer Vision, Fifth Edition
    E.R. Davies
    Academic Press
    ISBN-13 978-0128092842
    
    • Comme autre manuel de référence, recommandation de Computer Vision 2nd Ed (2022) de Szeliski https://szeliski.org/Book/. Le livre de Forsyth & Ponce est également bon, mais un peu ancien. Si vous vous intéressez à la 3D, Multiple View Geometry de Hartley & Zisserman reste un classique.
  • Énormes éloges pour ce livre, au point de dire qu’il est difficile de croire qu’il soit disponible gratuitement.

    • C’est vraiment vrai. Je me demande si quelqu’un a trouvé un moyen de le télécharger en PDF. Quand j’étudie, je trouve indispensable de pouvoir laisser des notes personnelles ou des documents de référence.

    • La culture des communautés machine learning, computer vision et robotique autour de la mise à disposition gratuite des manuels en ligne est remarquable. On peut trouver gratuitement en ligne des manuels de tout premier niveau dans ce domaine. Dans d’autres disciplines, des professeurs américains exigent l’achat de la dernière édition, ce qui coûte cher, alors qu’ici, les meilleurs supports sont ouverts aux pays en développement comme à n’importe qui dans le monde. Il y a aussi beaucoup de supports de cours et de vidéos accessibles librement.

  • Demande de recommandation d’un bon livre sur la machine vision. Au-delà d’une vision machine efficace, l’idée est que l’essentiel en computer vision réside dans le choix de la caméra, de l’optique et de l’éclairage. Si la qualité de l’image en entrée est mauvaise, la sortie le sera forcément aussi.

    • Je serais curieux de voir des cas concrets ou des exemples d’usage montrant à quel point ces éléments font réellement la différence.