2 points par GN⁺ 2023-12-05 | 1 commentaires | Partager sur WhatsApp

La nécessité d’une marge d’erreur dans l’analyse et la prévision de la criminalité

  • Souligne que les prévisions de criminalité doivent inclure une marge d’erreur
  • Un texte récemment publié par Richard Rosenfeld dans Criminologist discute des prévisions du taux de criminalité national
  • Beaucoup se plaignent que le FBI publie les statistiques criminelles avec un an de retard, mais le monde universitaire fournit des « prévisions » encore plus tardives

Analyse avec le modèle ARIMA

  • Analyse de ce à quoi peut ressembler une erreur de prévision raisonnable à l’aide d’un modèle ARIMA en Python
  • Les données et le code sont fournis sur GitHub
  • Explication du processus de configuration correcte du format des données, avec une brève présentation du chargement des données et de l’import des bibliothèques

Préparation de l’ajustement du modèle

  • Ajustement d’un modèle ARIMA(1,1,2) dans des conditions similaires à celles de l’article de Richard
  • Présentation d’une explication du modèle de Richard, d’une comparaison, ainsi que des résultats produits par le modèle

Prévisions et marge d’erreur

  • Ajout de nouvelles données et exécution d’une prévision à un pas en avant avec le package statsmodels
  • Présentation de résultats montrant que l’erreur standard de la prévision augmente avec le temps

Comparaison avec les estimations de Richard

  • Calcul du MAPE (Mean Absolute Percentage Error) de chaque modèle en comparant avec les prévisions de Richard
  • Présentation des intervalles de prévision, en soulignant que les valeurs observées restent cohérentes avec le modèle estimé

Point final

  • Sostient qu’il importe peu que Richard continue à commettre de grosses erreurs dans les prévisions macro de la criminalité
  • Affirme que les prévisions de criminalité au niveau national n’aident pas à orienter les réponses politiques
  • Donne comme exemple d’application concrète de la prévision de la criminalité une méthode pour anticiper le besoin d’augmenter les effectifs de police en fonction de la croissance urbaine

L’avis de GN⁺

Le point le plus important de cet article est l’insistance sur l’importance des marges d’erreur dans les prévisions de criminalité et sur la nécessité de reconnaître l’incertitude inhérente aux prévisions. Même si les prévisions de criminalité ne sont pas forcément directement utiles aux décisions publiques, la modélisation prédictive peut servir d’outil important pour vérifier la validité des théories criminologiques. L’article offre des perspectives intéressantes à celles et ceux qui se situent à l’intersection de la data science et de la criminologie, ainsi qu’une discussion approfondie sur les limites des modèles prédictifs et les moyens de les dépasser.

1 commentaires

 
GN⁺ 2023-12-05
Commentaire Hacker News
  • Le lien entre prédiction et prise de décision

    • Une prédiction doit généralement déboucher sur une prise de décision.
    • Quand une prédiction est séparée de la décision, sa valeur devient floue.
    • Rosenfield semble vouloir utiliser la prédiction pour renforcer des conclusions statistiques sur des données passées, mais cela paraît discutable.
  • La signification des barres d’erreur

    • La signification des barres d’erreur n’est pas claire.
    • L’une correspond à un intervalle de confiance (le modèle indique avec 95 % de probabilité que la sortie se situera dans cette plage).
    • L’autre correspond à l’écart-type (prédire l’écart quadratique entre sa propre prédiction et le résultat).
  • L’importance des barres d’erreur

    • Les barres d’erreur permettent de mieux comprendre la comparaison des bénéfices d’un nouveau traitement.
    • Certains pensent que cela rend le problème plus confus.
    • Obtenir des barres d’erreur réellement significatives est, dans certains cas, très difficile.
  • Examen des distributions statistiques

    • Observer régulièrement des histogrammes (distributions statistiques) pour les métriques importantes.
    • Dans un problème de vitesse d’appel de service web, deux pics nets apparaissaient.
    • Ces deux pics, correspondant aux utilisateurs déconnectés et connectés, ont permis de mieux comprendre la cause du problème.
  • Des barres d’erreur pour les estimations de dates

    • Les estimations de dates (autrement dit, les échéances) devraient elles aussi avoir des barres d’erreur.
    • Une date est une prédiction, et sans estimation de l’incertitude, elle n’a pas de sens.
  • L’importance de quantifier l’incertitude

    • En data science, et particulièrement en machine learning, la quantification de l’incertitude est souvent négligée.
    • Les praticiens n’ont pas toujours une formation en statistique.
  • Comparaison entre prédiction et mesure

    • Une prédiction peut être vue comme une mesure du futur.
    • Toute mesure effectuée sans connaissance de son incertitude est dénuée de sens.
  • Malentendu sur la météo

    • Au départ, j’ai cru que cet article parlait de météo.
  • La prédiction du présent ou du passé, c’est-à-dire le nowcasting

    • L’art de prédire le présent ou le passé pendant qu’on attend les données.
    • Sans marge d’erreur, cela relève d’une science/statistique imprécise.
  • Des prédictions utiles même sans barres d’erreur

    • Parfois, une simple prédiction ponctuelle suffit pour guider l’action.
    • Une connaissance complète de la distribution prédictive peut aider à prendre de bonnes décisions.
  • Les avantages de la régression par processus gaussien

    • La régression par processus gaussien (ou krigeage) présente de grands avantages.
  • La nécessité d’intervalles de confiance/prédiction/tolérance pour toute estimation/prédiction/prévision/interpolation/extrapolation

    • Il devrait y avoir des intervalles de confiance/prédiction/tolérance qui intègrent les hypothèses que l’équipe injecte dans le problème.