1 points par GN⁺ 2023-12-23 | 1 commentaires | Partager sur WhatsApp

Impossible de résumer le contenu de cette requête. Le contenu fourni de l’article est le message d’erreur « 403 Forbiddennginx », qui est un code d’état HTTP indiquant une absence d’autorisation d’accès, et non le contenu réel de l’article. Cela signifie généralement que le serveur web a compris la requête, mais n’a pas l’autorisation de l’exécuter.

L’avis de GN⁺

  • L’erreur « 403 Forbidden » est un problème familier pour les développeurs web et les administrateurs système, qui peut être causé par des paramètres d’autorisation ou une erreur de configuration du serveur.
  • Ce message d’erreur signifie que le serveur a refusé l’accès lorsque l’utilisateur a tenté d’accéder à une partie spécifique du site web.
  • Ce type d’erreur est étroitement lié à la sécurité web et constitue une fonction importante pour empêcher qu’un utilisateur accède à des informations sensibles sans les autorisations appropriées.

1 commentaires

 
GN⁺ 2023-12-23
Avis Hacker News
    • C’est une méthode d’échantillonnage très ingénieuse, bravo aux auteurs. Quand je travaillais chez Pew, nous avions essayé de cartographier YouTube via une exploration aléatoire à travers l’endpoint API des "vidéos associées", mais au bout d’un an, nous avions l’impression d’avoir atteint une saturation. Cependant, l’ampleur décrite ici suggère l’existence d’une longue traîne qui passe sous les radars. Peu après la publication de notre étude, Google a commencé presque immédiatement à verrouiller l’API, mais je suis heureux de voir que des gens poursuivent encore ce type de recherche avec du scraping à l’ancienne. Notre analyse se faisait au niveau des chaînes et se concentrait uniquement sur les chaînes populaires, mais il est intéressant de constater que certaines métriques de TubeStats sont assez proches de ce que nous avions trouvé (par ex. la répartition par langue).*
    • Éloge de la méthode d’échantillonnage ingénieuse et partage d’une expérience de recherche similaire chez Pew
    • Réaction positive au fait que la recherche via scraping continue malgré les restrictions d’accès à l’API par Google
    • Mention de similitudes entre sa propre étude et les données de TubeStats
    • C’est intéressant comme méthode d’attaque atténuée appliquée au problème des chars allemands. La solution optimale serait probablement d’agrandir l’espace d’adressage afin d’empêcher qu’un échantillonnage aléatoire puisse collecter assez de données pour parvenir à des conclusions statistiquement significatives. Il existe sûrement d’autres bonnes solutions, mais un échantillon véritablement aléatoire limiterait ce type d’approche.*
    • Référence au problème des chars allemands et proposition d’élargir l’espace d’adressage pour empêcher la collecte de données
    • Je recommande de consulter le dataset "YouTube Dislikes". Il a été constitué dans le cadre d’un effort d’archivage visant à collecter les informations avant la suppression de la fonctionnalité des dislikes. On peut l’utiliser pour trouver les vidéos les plus controversées, les meilleures vidéos décrites dans une langue donnée, etc.*
    • Information sur les possibilités d’analyse à partir du dataset YouTube Dislikes
    • J’ai essayé d’estimer la quantité de données que possède YouTube, mais je n’ai pas trouvé de chiffre. En supposant une durée moyenne de vidéo de 500 secondes, un débit binaire de 400 KB/s, et en partant de 1,3 milliard de vidéos, j’arrive à 2,7 exaoctets. C’est une estimation basse de l’espace de stockage nécessaire si l’on considère que YouTube stocke les vidéos populaires dans plusieurs datacenters, ainsi qu’aux formats VP9 et AV1. Il est possible que YouTube compresse les vidéos peu populaires ou les transcode à la demande depuis d’autres formats, ce qui pourrait faire monter l’estimation, mais je ne pense pas que ce soit le cas.*
    • Estimation du volume de données de YouTube et spéculations sur ses méthodes de stockage
    • Google posait parfois des questions sur les problèmes de passage à l’échelle de YouTube pour certains postes. Cela débouchait souvent sur des questions de complexité en grand O au sujet de la synchronisation des logs dans une infrastructure distribuée en croissance. Le résultat était une fonction en grand O(f(n)) presque impossible à expliquer tant elle était complexe. C’était amusant.*
    • Mention des problèmes de scalabilité de YouTube à partir d’une expérience d’entretien chez Google
    • Le site compagnon des résultats de cet article est : TubeStats.org*
    • Lien vers le site web associé à l’article
    • Beaucoup trop gros. Hier soir, j’ai reçu une notification me demandant de mettre à jour l’application YouTube sur mon téléphone. Le problème, c’est que c’est la dernière version qui peut tourner sur mon téléphone. Au moins, le web fonctionne encore.*
    • Partage d’une expérience personnelle sur la taille de l’application YouTube et les problèmes de mise à jour
    • Ce dataset est amusant. L’article donne une impression légèrement erronée des statistiques par chaîne : si l’on ne recalibre pas le nombre d’abonnés pour corriger le biais d’échantillonnage, il faut alors pondérer le nombre de vidéos par chaîne d’environ ~1/#, car la probabilité qu’une chaîne donnée apparaisse est proportionnelle au nombre de vidéos publiques de cette chaîne.*
    • Explication d’un possible malentendu sur les statistiques par chaîne et sur la méthode d’échantillonnage
    • La fonction d’échantillonnage suppose-t-elle que tous les "codes régionaux" contiennent le même nombre de numéros disponibles ? Sur certains grands sites (par ex. Twitter, etc.), les shards qui contiennent les données les plus demandées peuvent être bien moins denses. Par exemple, le code régional où se trouve Justin Bieber aurait moins de numéros. Cela pourrait fortement fausser les résultats.*
    • Remise en question de la méthode d’échantillonnage et remarque sur l’impact des écarts de densité entre certains shards de données
    • Expression d’admiration pour un site web donné