- Développement d’un bot de crawling qui collecte les informations produit de Coupang avec ChatGPT
- Les colonnes à collecter sont le nom du produit, le prix catalogue, le prix de vente, la note, le nombre d’avis, les informations de remise carte, les informations de points de fidélité et les informations de livraison
- Méthodes pour réduire la taille du HTML afin d’éviter la limite du nombre de tokens, et points à considérer lors de la rédaction des prompts
- Ignorer les produits sponsorisés
- Gestion des exceptions lorsque la structure du DOM diffère
- Vérification des colonnes obligatoires (nom du produit, prix)
- ChatGPT est un outil extrêmement utile, mais il nécessite un peu de débogage et d’ajustements (au final, ce sont les experts qui en tirent le plus grand bénéfice)
- Pour collecter de gros volumes de données, il faut prendre en compte les stratégies d’évitement du blocage
5 commentaires
On dirait que tout l'article lui-même a été écrit par GPT.
Je crois que c’est ce à quoi ça se résume..
Je crée un crawler avec ChatGPT, et cela m’aide beaucoup pour le parsing et l’extraction XPath.
C’est un article sur la création d’un crawler avec GPT, mais au final, c’est surtout une publicité pour HashScraper.
Les blogs tech, c’est toujours un peu comme ça, non… hehe.