Les bases de la vision par ordinateur (2024)

(visionbook.mit.edu)

6 points par GN⁺ 2025-06-16 | 1 commentaires | Partager sur WhatsApp

Foundations of Computer Vision est un manuel d’introduction à la vision par ordinateur qui traite à la fois du traitement d’image et du machine learning, destiné non seulement aux étudiants de premier et deuxième cycle débutants, mais aussi aux praticiens expérimentés
Proposé pour la première fois à MIT Press en novembre 2010, il a été écrit pendant plus de 10 ans, et l’objectif initial de produire des chapitres courts et essentiels n’a cessé de s’étendre au fil des évolutions du domaine
La révolution du deep learning de 2012 a fourni les outils permettant de relier d’anciennes idées à des implémentations concrètes, et certains concepts initiaux, un temps éclipsés, ont retrouvé de l’importance avec le temps
Le livre est structuré en 15 parties couvrant la formation des images, l’apprentissage, le traitement du signal et de l’image, les filtres, les représentations multi-échelles, les réseaux de neurones, les modèles génératifs, la géométrie 3D, le mouvement, la compréhension de scène et jusqu’aux conseils aux chercheurs
Plutôt que de recenser l’ensemble des résultats les plus récents en vision par ordinateur ou d’approfondir l’analyse de forme, le suivi d’objets, l’estimation de pose humaine ou la reconnaissance faciale, il se concentre sur les concepts fondamentaux nécessaires pour comprendre de nombreuses applications

À quel type de lecteur ce livre s’adresse-t-il

Foundations of Computer Vision aborde les sujets fondamentaux de la vision par ordinateur sous l’angle du traitement d’image et du machine learning
Le public principal est constitué des étudiants de premier et deuxième cycle qui entrent dans le domaine, mais l’ouvrage vise aussi à être utile aux praticiens expérimentés
Il inclut de nombreuses visualisations afin de construire une intuition des concepts
Au départ, l’idée était d’écrire un gros livre couvrant largement le domaine, mais l’étendue de la vision par ordinateur étant trop vaste, le projet s’est réorienté vers un livre plus petit
- Chaque chapitre devait être limité à 5 pages ou moins
- Cette contrainte a conduit à se concentrer, pour chaque sujet, sur les concepts importants nécessaires à la compréhension
- Même l’objectif d’écrire un livre court n’a finalement pas été atteint

Un processus d’écriture étalé sur plus de 10 ans

L’idée du livre a été proposée pour la première fois à MIT Press le 24 novembre 2010
L’écriture n’a pas progressé de façon linéaire, et le manuscrit n’a pas seulement grossi : il a aussi rétréci à un moment avant de reprendre de l’ampleur
L’ensemble du travail a pris plus de 10 ans
De nombreux exemples ont été créés et affinés pendant la rédaction, avec l’objectif de permettre aux lecteurs d’apprendre en les reproduisant eux-mêmes

Des idées anciennes qui perdurent après le deep learning

La vision par ordinateur a beaucoup changé au cours des 10 dernières années, mais les méthodes actuelles ont des racines profondes dans l’histoire passée de la vision par ordinateur et de l’IA
Même si les noms ont changé et que certaines idées sont apparues plus récemment, les méthodes d’aujourd’hui ne sont pas coupées des concepts antérieurs
Le livre met en avant les thèmes unificateurs qui se cachent derrière de nombreux concepts
L’une des métaphores centrales est celle des multiples vues
- observer une même scène physique réelle depuis différents angles, capteurs ou instants
- rassembler plusieurs vues pour comprendre la réalité sous-jacente
- le livre adopte lui aussi une structure qui combine plusieurs points de vue pour dégager les fondements de la vision par ordinateur
La révolution du deep learning de 2012 a consolidé les bases de la vision par ordinateur et fourni les outils permettant de transformer en implémentations fonctionnelles de nombreuses idées proposées aux débuts du domaine
Après le deep learning, certaines idées initiales ont été oubliées pendant un temps, mais beaucoup sont revenues avec le recul

L’étendue du livre à travers ses 15 parties

La plupart des chapitres supposent une compréhension des sujets abordés auparavant ; il est donc préférable de les lire dans l’ordre
Part I : thèmes de motivation qui introduisent les problèmes de vision et les replacent dans leur contexte social, systèmes de vision simples, outils mathématiques de base
Part II : le processus de formation des images
Part III : les bases de l’apprentissage à l’aide d’exemples de vision et des concepts applicables plus largement
Part IV : introduction au traitement du signal et de l’image qui sert de base à la vision par ordinateur
Part V : filtres linéaires et leurs applications, comme les Gaussian kernels, binomial filters, image derivatives, Laplacian filter et temporal filters
Part VI : représentations d’image multi-échelles
Part VII : réseaux de neurones pour la vision
- convolutional neural networks
- recurrent neural networks
- transformers
- l’accent est mis sur les principes essentiels plutôt que sur des architectures particulières
Part VIII : modèles statistiques d’images et modèles graphiques
Part IX : deux approches de modélisation puissantes à l’ère des réseaux de neurones
- la modélisation générative traite des modèles statistiques d’images capables de produire des images naturelles et des images synthétiques respectant des règles géométriques appropriées
- l’apprentissage de représentations cherche des abstractions utiles des images, comme les vector embeddings
Part X : les défis qui apparaissent lors de la création de systèmes de vision fondés sur l’apprentissage
Part XI : outils géométriques et usages pour reconstruire la structure du monde 3D à partir d’images 2D
Part XII : traitement de séquences et mesure du mouvement
Part XIII : compréhension de scène et détection d’objets
Part XIV : conseils aux jeunes chercheurs sur les présentations, la rédaction d’articles et l’attitude efficace en recherche
Part XV : retour au système visuel simple présenté dans la Part I afin d’appliquer les techniques du livre à un problème jouet

Ce que le livre ne traite pas volontairement en profondeur

Il ne propose pas de revue des résultats les plus récents de la vision par ordinateur contemporaine
Il ne traite pas en profondeur de nombreuses applications comme l’analyse de forme, le suivi d’objets, l’estimation de pose humaine ou la reconnaissance faciale
Pour ces sujets applicatifs, il est plus approprié d’étudier les articles récents des conférences de vision par ordinateur et les monographies spécialisées
L’accent du livre porte non pas sur les derniers résultats dans les applications, mais sur les concepts fondamentaux

Livres connexes mentionnés avec celui-ci

Parmi les manuels généralistes de vision par ordinateur, les ouvrages suivants sont mentionnés
- Computer Vision: A Modern Approach
- Computer Vision: Algorithms and Applications de Rick Szeliski
Les fondements physiques sont bien traités dans Robot Vision de Horn
Vision de David Marr est cité comme le livre qui a suscité l’entrée dans la vision par ordinateur, et il est salué pour la qualité de son intuition et de son écriture
La géométrie de la vision multi-caméra est traitée en détail dans Multiple View Geometry in Computer Vision de Hartley et Zisserman
Pour la géométrie 3D, sont mentionnés Solid Shape de Koenderink, Three-Dimensional Computer Vision de Faugeras et Introductory Techniques for 3D Computer Vision de Trucco et Verri
Pour l’apprentissage, les livres de Mackay, Bishop, Murphy et Goodfellow·Bengio·Courville sont mentionnés
Les modèles probabilistes pour la vision sont bien couverts par le manuel de Prince
Pour la perception visuelle humaine, Vision Science: Photons to Phenomenology de Steve Palmer est mentionné comme une référence importante
Pour la vision bas niveau, Signal Processing for Computer Vision de Granlund et Knutsson est mentionné, et pour la vision haut niveau, High-level Vision d’Ullman
Concernant la lumière et la vision, Light and Color in the Outdoors de Minnaert est mentionné

Informations de citation et supports de cours

L’entrée BibTeX de citation du livre inclut les informations suivantes
- title: Foundations of Computer Vision
- author: Torralba, A. and Isola, P. and Freeman, W.T.
- isbn: 9780262378666
- lccn: 2023024589
- series: Adaptive Computation and Machine Learning series
- year: 2024
- publisher: MIT Press
La version imprimée peut être achetée chez MIT Press
Les slides pour les enseignants peuvent être téléchargés sur Dropbox

1 commentaires

GN⁺ 2025-06-16

Avis de Hacker News

Il y a un passage intéressant dans On Research, Writing and Speaking : « Ça a l’air d’un travail difficile. » C’est vrai. À ce stade, ce n’est plus une question d’intelligence. Arrivé là, les gens autour de vous sont tous intelligents. En école doctorale, ce sont les personnes qui travaillent dur qui prennent de l’avance
- C’est clairement pertinent. Tout le monde atteint un stade où s’en sortir uniquement grâce à son intelligence ne suffit plus
  Beaucoup de gens s’en rendent compte en entrant à l’université, mais en licence le contenu à apprendre est clairement défini et il y a un plafond, ce qui permet de tenir jusqu’à un certain point. À l’inverse, en doctorat, il n’y a quasiment pas de plafond, il n’y a pas non plus un nombre fixé d’articles à lire chaque semaine, ni de « ça ne tombera pas à l’examen ». Ce n’est pas que le rendement d’être plus intelligent s’aplatit : c’est juste qu’il n’y a pas de plafond. On peut lire davantage, suivre le déluge de la littérature, et continuer à améliorer ses expériences et ses méthodes
  Il faut aussi des soft skills et un réseau. Aller à des conférences pour comprendre les dynamiques de la communauté, rencontrer des gens autour d’un café ou d’un dîner. Au lieu d’attendre des consignes comme en licence, il faut se mettre en mouvement soi-même, être suffisamment sceptique et critique vis-à-vis des méthodes existantes, tout en proposant de nouvelles idées pertinentes et intéressantes, que la communauté puisse comprendre et accepter
  Sans la synchronisation externe apportée par les cours et les examens, il faut gérer soi-même son temps et se créer des échéances et des routines. Tout cela n’a en pratique pas de plafond, et les attentes sont floues. Même après avoir été suffisamment rigoureux, on peut essuyer son premier refus simplement parce que les évaluateurs ne voient pas la nouveauté ou que le travail ne colle pas bien à la tendance du moment
  Au final, un doctorat peut pousser n’importe qui jusqu’à ses limites mentales. C’est frustrant, et c’est une période notoirement difficile pour beaucoup de doctorants. Bien sûr, si l’objectif est seulement d’obtenir le diplôme, une stratégie de « tenir bon » peut fonctionner, mais ceux qui visent une carrière académique attendent généralement plus que le minimum, et c’est encore plus vrai pour ceux qui s’en sortaient avec de bonnes notes en licence
- En troisième année de licence, j’avais l’impression de ne pas réussir à suivre les cours même en travaillant dur. C’était un programme d’ingénierie où l’on entrait avec environ 90 % de moyenne au lycée, et il était si difficile que 75 % des étudiants avaient abandonné avant la fin de la deuxième année
- J’aurais aimé que quelqu’un me dise cela pendant mon master/doctorat. Il m’a fallu beaucoup trop longtemps pour apprendre comment devenir un bon étudiant de troisième cycle, et honnêtement je ne l’ai vraiment compris qu’après avoir terminé mes études
Un autre bon livre dans ce domaine est : Computer Vision, Fifth Edition, E.R. Davies, Academic Press, ISBN-13 978-0128092842
- Un autre ouvrage de référence est Computer Vision 2nd Ed de Szeliski, édition 2022 : https://szeliski.org/Book/
  Forsyth & Ponce est aussi bon, mais il a désormais un peu vieilli. Côté 3D, le classique reste Multiple View Geometry de Hartley & Zisserman
C’est surprenant que ce livre soit disponible gratuitement. Merci à l’auteur ou à l’éditeur, quel que soit celui qui l’a mis à disposition
- Les communautés machine learning, vision par ordinateur et robotique ont vraiment une excellente culture de mise en ligne gratuite des livres. On peut consulter gratuitement les meilleurs manuels du domaine
  C’est un contraste assez net avec d’autres disciplines aux États-Unis, où des professeurs exigent en pratique l’achat de la dernière édition d’un manuel à plusieurs centaines de dollars. Grâce à cela, des personnes dans des pays disposant de moins de moyens peuvent accéder aux meilleures ressources partout dans le monde. Les supports de cours et les vidéos sont eux aussi souvent partagés en ligne
- Tout à fait, et je me joins aux remerciements. Cela dit, je me demande s’il existe un moyen de le télécharger en PDF. Quand on lit du matériel d’apprentissage, je pense qu’il faut pouvoir prendre des notes et ajouter des repères
La section « Writing this book » peut se lire par erreur comme si un LLM avait été utilisé pour les 2/3 du manuscrit
Cela veut probablement dire que le LLM a fourni beaucoup plus de matière à écrire, mais ce serait bien de le clarifier
- Je ne le lis pas comme ça. En réalité, ChatGPT a été le premier outil capable d’aider à la rédaction, et moins d’un tiers de ce livre a été écrit après la sortie publique de ChatGPT
  À première vue, on dirait que le graphique marque des événements importants dans le domaine du machine learning/de l’intelligence artificielle
Pour quelqu’un qui travaille dans ce domaine, je me demande dans quelle mesure ce contenu reste valable. Vu de l’extérieur, une grande partie du machine learning, y compris la vision par ordinateur, semble avoir été complètement bouleversée par les avancées des deux dernières années
- Cela reste très valable. Parmi les techniques récentes, rien n’est vraiment révolutionnaire ; elles reposent toutes sur les mêmes bases. Je pense même qu’il est utile de lire des livres plus anciens
  Il existe beaucoup d’applications de vision par ordinateur réellement rentables construites avec des méthodes classiques comme la transformée de Hough, les contours de Canny, SIFT et les coins de Harris. Il faut les connaître si l’on veut avoir l’air d’un expert sérieux, et non de quelqu’un qui enchaîne les buzzwords et colle des API sans comprendre les bases
- C’est encore très pertinent. La majeure partie de la vision par ordinateur utilisée hors du monde académique repose toujours sur des contenus anciens ou des algorithmes classiques de vision par ordinateur
  Les occasions d’utiliser les modèles et techniques les plus récents sont moins nombreuses qu’on ne l’imagine. La plupart du temps, ils ne sont pas si pertinents, ne conviennent qu’à des cas extrêmement spécifiques, ou cette complexité n’est tout simplement pas nécessaire
- Il reste beaucoup de problèmes à résoudre avec la vision par ordinateur « classique », surtout dans les systèmes où il n’est pas facile d’utiliser l’accélération GPU. Je travaille sur la localisation et cartographie simultanées (SLAM) sur des plateformes aux ressources de calcul limitées, donc je compte absolument lire le chapitre sur Structure from Motion
Je me demande s’il existe un cours de vision par ordinateur basé sur ce livre. J’aimerais savoir s’il y a des ressources comme des vidéos
J’aimerais qu’on me recommande un bon livre sur la vision industrielle. Je pense que la base d’une vision industrielle efficace, et plus largement de la vision par ordinateur, consiste à choisir la bonne caméra, l’optique et l’éclairage adéquats. Si l’entrée est mauvaise, la sortie le sera aussi ; des images de haute qualité sont donc indispensables
- Je serais curieux de voir un ou deux cas d’usage où ces éléments ont réellement fait une grande différence

Les bases de la vision par ordinateur (2024)

À quel type de lecteur ce livre s’adresse-t-il

Un processus d’écriture étalé sur plus de 10 ans

Des idées anciennes qui perdurent après le deep learning

L’étendue du livre à travers ses 15 parties

Ce que le livre ne traite pas volontairement en profondeur

Livres connexes mentionnés avec celui-ci

Informations de citation et supports de cours

À lire aussi

1 commentaires

Avis de Hacker News