- L’objectif est de comprendre l’état actuel du marché de l’emploi et ses tendances à travers les fils "Ask HN: Who Is Hiring" de Hacker News
- Utilisation de Selenium pour rechercher chaque mois dans Google "ask hn who is hiring {month} {year}" afin de collecter les ID des fils
- Utilisation de l’API HN pour récupérer les ID des commentaires de premier niveau, puis stockage dans une base de données sqlite3
- Utilisation de GPT-4o pour classifier les commentaires
- Utilisation de la méthode
llm.batch(array) de LangChain pour traiter les données rapidement en parallèle
Résultats
Combien d’emplois autorisent le télétravail ?
- Pendant la pandémie, seuls un emploi sur cinq ne prenait pas en charge le télétravail
- La proportion d’emplois compatibles avec le télétravail n’a pas diminué autant que prévu
Combien d’emplois proposent un sponsoring de visa ?
- La proportion d’emplois avec sponsoring de visa est restée relativement stable au cours des deux dernières années
- Il reste difficile de trouver un emploi avec sponsoring de visa
Comment évolue la répartition par niveau d’expérience ?
- Au cours des 6 à 12 prochains mois, il sera important d’avoir plus de 8 ans d’expérience
Combien y a-t-il d’emplois par État aux États-Unis ?
- La Bay Area et NYC proposent bien plus d’emplois que les autres régions
Quelles bases de données sont utilisées ?
- PostgreSQL domine très largement l’usage par rapport aux autres bases de données
Quels frameworks JavaScript sont les plus demandés ?
- La demande pour React est très élevée
- Création d’un graphique à bulles interactif avec
three.js sans utiliser d’échelle logarithmique
Quelle est la répartition des salaires ?
- Aucun détail précis n’est fourni sur la répartition des salaires
Leçons retenues
- Il faut décrire les champs du modèle de la manière la plus précise possible
- Lors de la classification, il faut expliciter les classes dans la description
- Lors de l’extraction d’ensembles, il faut préciser les délimiteurs dans la description
Travaux futurs
- À partir de ce travail initial, il semble possible de créer un mini SaaS qui classerait et mettrait en correspondance, mois par mois, les emplois recherchés par un utilisateur à partir des fils "Ask HN: Who is hiring?"
Avis de GN⁺
- Cet article montre bien comment analyser le marché de l’emploi en s’appuyant sur la data science et les techniques de traitement du langage naturel
- Le traitement parallèle avec GPT-4o et LangChain est utile pour traiter rapidement de grands volumes de données
- Le texte reflète la réalité de la difficulté à trouver un emploi avec sponsoring de visa, ce qui le rend utile pour les personnes à la recherche de ce type d’informations
- La forte demande pour React et PostgreSQL constitue un bon point de repère pour les personnes souhaitant apprendre ces technologies
- L’idée du mini SaaS pourrait être d’une grande aide pour de nombreux chercheurs d’emploi si elle était réellement mise en œuvre
1 commentaires
Commentaire Hacker News
L’analyse avec GPT-4o est intéressante
goetrustnode.jsetnodejs, ainsi quereact-nativeetreact native, ne soient pas regroupésDommage qu’on ne puisse pas trouver le code source du projet sur GitHub
Merci d’avoir investi du temps et de l’argent dans ce projet
Excellente combinaison entre LLM et analyse traditionnelle
Empiler les barres dans le graphique n’est pas une bonne idée
Il faudrait utiliser une échelle logarithmique pour que le graphique n’ait pas l’air bizarre
Ce serait intéressant de faire la même analyse avec Claude 3 Haiku
Ce serait intéressant de comparer avec un échantillon aléatoire d’Indeed ou de LinkedIn
Dans le graphique des frameworks JS, il y a à la fois une bulle « React Native » et une bulle « React-Native »
J’aimerais voir une analyse similaire sur « Who Wants to be Hired »