2 points par GN⁺ 2024-07-31 | 1 commentaires | Partager sur WhatsApp

Présentation de en.osm.town

  • en.osm.town fait partie d’un réseau social décentralisé basé sur Mastodon
  • Il s’agit d’une communauté indépendante de la communauté OpenStreetMap, financée par l’OpenStreetMap Foundation
  • Statistiques du serveur : 257 utilisateurs actifs

Points clés

  • Grant Slater propose aux entreprises d’IA de faire un don de 10 000 $ au lieu de scraper discrètement les données d’OpenStreetMap
  • Un don de 50 000 $ permettrait aussi de fournir des mises à jour en streaming en temps réel
  • Bart Louwers mentionne que le scraping d’OpenStreetMap est courant
  • wikiyu affirme qu’utiliser les données planet.osm est plus efficace
  • Josua critique la manière inefficace dont l’IA est entraînée
  • Juan Luis indique qu’un problème similaire d’abus par des crawlers d’IA se produit aussi sur Read the Docs
  • Simon Poole soutient qu’une approche raisonnable pourrait nuire à l’image des entreprises d’IA
  • Michał avance que des prestataires d’un pays donné ont peut-être reçu pour mission de télécharger les données OSM
  • leadingzero critique le fait que les exigences de licence d’OSM ne soient pas correctement appliquées
  • Grant Slater mentionne avoir créé un dépôt GitHub pour suivre les propriétés des tuiles
  • Guillaume Rischard mentionne avoir récemment réglé une question juridique en Allemagne
  • Adderall girl grindset (Jes) propose de bloquer les crawlers d’IA

Résumé de GN⁺

  • Cet article traite du problème des entreprises d’IA qui scrapent les données d’OpenStreetMap
  • Il propose des moyens d’utiliser efficacement les données d’OpenStreetMap ainsi qu’une approche d’accès aux données via des dons
  • Il discute du problème des abus des crawlers d’IA et des réponses possibles
  • Parmi les projets aux fonctionnalités similaires figurent Google Maps et Bing Maps

1 commentaires

 
GN⁺ 2024-07-31
Avis sur Hacker News
  • Les crawlers d’IA ignorent robots.txt, n’utilisent pas les API publiques et ne respectent pas les pics de charge, ce qui augmente les coûts d’infrastructure
  • Le président de l’OpenStreetMap Foundation rappelle que les données OpenStreetMap peuvent être téléchargées gratuitement en masse et recommande d’utiliser cela au lieu du scraping
    • Le scraping impose une forte charge à des ressources fournies bénévolement, et bloquer les IP de scraping demande aussi du temps et des efforts
    • Respecter les ressources et le temps aide à maintenir le service gratuit
  • Il est possible de configurer une instance OpenStreetMap en 10 minutes, avec une simple commande docker run
    • L’indexation prend du temps, mais pas de manière excessive au regard des ressources
  • Certains avaient besoin des données OSM, mais ne comprenaient pas vraiment comment les obtenir correctement
    • Il faut télécharger un énorme fichier de 100 Go et utiliser des formats et bibliothèques peu clairs
    • Les informations sont dispersées, et l’API HTTP est limitée ou soumise à un rate limiting
    • Au final, ils ont utilisé un projet gratuit qui fournit des données OSM déjà converties
  • L’auteur du post a limité et bloqué des crawlers qui scrapent agressivement le site web et les API de cartographie, puis a réagi avec sarcasme
    • Les données OpenStreetMap peuvent être téléchargées gratuitement, et sont disponibles via AWS S3 et torrent
    • Pour démarrer, il vaut mieux utiliser de petites extractions régionales
  • Mettre planet.osm sur torrent et n’autoriser le scraping que via torrent pourrait répartir la charge réseau
  • Le fait que des crawlers d’IA demandent toutes les révisions de tous les fichiers via l’interface web est inefficace
    • Cela gaspille de l’électricité et des ressources
  • Proposition : créer un honeypot pour les entreprises d’IA qui génère en boucle un contenu sans intérêt
  • Il est regrettable que des projets comme CommonCrawl n’aient pas supprimé le besoin, pour diverses entreprises, de scraper directement les serveurs
    • Cela pourrait être parce qu’elles veulent visiter plus souvent ou dépenser beaucoup d’argent de VC pour impressionner les investisseurs
  • Certains se demandent ce que les entreprises d’IA scrapent exactement sur OSM