8 points par GN⁺ 2024-07-05 | 1 commentaires | Partager sur WhatsApp
  • L’objectif est de comprendre l’état actuel du marché de l’emploi et ses tendances à travers les fils "Ask HN: Who Is Hiring" de Hacker News
  • Utilisation de Selenium pour rechercher chaque mois dans Google "ask hn who is hiring {month} {year}" afin de collecter les ID des fils
  • Utilisation de l’API HN pour récupérer les ID des commentaires de premier niveau, puis stockage dans une base de données sqlite3
  • Utilisation de GPT-4o pour classifier les commentaires
  • Utilisation de la méthode llm.batch(array) de LangChain pour traiter les données rapidement en parallèle

Résultats

Combien d’emplois autorisent le télétravail ?
  • Pendant la pandémie, seuls un emploi sur cinq ne prenait pas en charge le télétravail
  • La proportion d’emplois compatibles avec le télétravail n’a pas diminué autant que prévu
Combien d’emplois proposent un sponsoring de visa ?
  • La proportion d’emplois avec sponsoring de visa est restée relativement stable au cours des deux dernières années
  • Il reste difficile de trouver un emploi avec sponsoring de visa
Comment évolue la répartition par niveau d’expérience ?
  • Au cours des 6 à 12 prochains mois, il sera important d’avoir plus de 8 ans d’expérience
Combien y a-t-il d’emplois par État aux États-Unis ?
  • La Bay Area et NYC proposent bien plus d’emplois que les autres régions
Quelles bases de données sont utilisées ?
  • PostgreSQL domine très largement l’usage par rapport aux autres bases de données
Quels frameworks JavaScript sont les plus demandés ?
  • La demande pour React est très élevée
  • Création d’un graphique à bulles interactif avec three.js sans utiliser d’échelle logarithmique
Quelle est la répartition des salaires ?
  • Aucun détail précis n’est fourni sur la répartition des salaires

Leçons retenues

  • Il faut décrire les champs du modèle de la manière la plus précise possible
  • Lors de la classification, il faut expliciter les classes dans la description
  • Lors de l’extraction d’ensembles, il faut préciser les délimiteurs dans la description

Travaux futurs

  • À partir de ce travail initial, il semble possible de créer un mini SaaS qui classerait et mettrait en correspondance, mois par mois, les emplois recherchés par un utilisateur à partir des fils "Ask HN: Who is hiring?"

Avis de GN⁺

  • Cet article montre bien comment analyser le marché de l’emploi en s’appuyant sur la data science et les techniques de traitement du langage naturel
  • Le traitement parallèle avec GPT-4o et LangChain est utile pour traiter rapidement de grands volumes de données
  • Le texte reflète la réalité de la difficulté à trouver un emploi avec sponsoring de visa, ce qui le rend utile pour les personnes à la recherche de ce type d’informations
  • La forte demande pour React et PostgreSQL constitue un bon point de repère pour les personnes souhaitant apprendre ces technologies
  • L’idée du mini SaaS pourrait être d’une grande aide pour de nombreux chercheurs d’emploi si elle était réellement mise en œuvre

1 commentaires

 
GN⁺ 2024-07-05
Commentaire Hacker News
  • L’analyse avec GPT-4o est intéressante

    • J’ai récemment analysé les jeux de données « Who is Hiring » et « Who wants to be hired » avec pandas et spacy
    • Il semble utile qu’un LLM puisse distinguer go et rust
    • C’est dommage que node.js et nodejs, ainsi que react-native et react native, ne soient pas regroupés
    • Je me demande pourquoi il répète des recherches Google à l’aide d’un script selenium
    • Il partage un script qui utilise directement l’API et une expression régulière pour faire correspondre les titres
  • Dommage qu’on ne puisse pas trouver le code source du projet sur GitHub

    • Je découvre langchain, et l’API est moins cohérente que je ne l’imaginais
    • Je me demande si ce ne serait pas aussi possible avec Ollama
    • Les différents wrappers sont imbriqués de façon complexe, ce qui rend l’ensemble confus
    • Il faudrait un tutoriel pour les débutants
  • Merci d’avoir investi du temps et de l’argent dans ce projet

    • Des statistiques supplémentaires sur le « remote » et le « in-person » seraient intéressantes
    • Si des entreprises en présentiel recrutent de façon répétée, c’est peut-être lié à leur croissance, ou au fait qu’elles ont du mal à trouver des candidats
    • Si des entreprises en remote disparaissent, c’est peut-être parce qu’elles ont trouvé les profils dont elles avaient besoin, ou qu’elles ont arrêté leur activité
  • Excellente combinaison entre LLM et analyse traditionnelle

    • Les LLM excellent pour comprendre les nuances humaines, le sarcasme et les expressions idiomatiques
    • Le ML est excellent pour extraire des informations à partir du contexte
    • On ne peut pas faire confiance aux LLM pour les vrais calculs numériques
  • Empiler les barres dans le graphique n’est pas une bonne idée

    • Parce qu’on ne peut pas évaluer correctement la deuxième couche
    • Il vaudrait mieux afficher remote et non-remote côte à côte pour chaque horodatage
  • Il faudrait utiliser une échelle logarithmique pour que le graphique n’ait pas l’air bizarre

    • À la place, un bubble chart a été réalisé avec three.js en 300 lignes de code
    • Les hackers se comportent comme des hackers
  • Ce serait intéressant de faire la même analyse avec Claude 3 Haiku

    • Son prix est de 1/40 de celui de GPT-4o
    • J’ai l’intuition que les résultats seraient similaires
  • Ce serait intéressant de comparer avec un échantillon aléatoire d’Indeed ou de LinkedIn

    • Hacker News est un groupe biaisé par rapport à l’industrie dans son ensemble
  • Dans le graphique des frameworks JS, il y a à la fois une bulle « React Native » et une bulle « React-Native »

  • J’aimerais voir une analyse similaire sur « Who Wants to be Hired »

    • On pourrait identifier les tendances chez les personnes qui ont du mal à trouver un emploi
    • Cela pourrait aider les personnes qui cherchent à faire progresser leur carrière