1 points par GN⁺ 2026-01-01 | 1 commentaires | Partager sur WhatsApp
  • Alignment Scry d’ExoPriors est une plateforme qui permet, via Claude Code, de rechercher 60 M de documents et 22 M d’embeddings collectés depuis arXiv, Hacker News, LessWrong, etc., à l’aide de SQL et d’opérations vectorielles
  • Une clé d’API publique est fournie, avec prise en charge à la fois de la recherche textuelle basée sur BM25 et de la recherche sémantique basée sur la distance cosinus de pgvector
  • Les fonctions alignment.search() et alignment.search_exhaustive() permettent de distinguer une recherche rapide par échantillonnage d’une recherche exhaustive
  • L’API peut être appelée après une configuration simple dans Claude Web ou Claude Code, avec prise en charge d’un identifiant personnel (@handle) et du stockage d’embeddings
  • Le service est ouvert gratuitement aux chercheurs et constitue un environnement expérimental important de requêtage de données à grande échelle pour la recherche en IA et l’automatisation de l’exploration d’information

Vue d’ensemble

  • Alignment Scry est un système de recherche permettant d’exécuter des opérations SQL et d’algèbre vectorielle sur un index de documents liés à l’explosion de l’intelligence
    • Les principales sources de données incluent arXiv, Hacker News, LessWrong, community-archive.org, etc.
    • Les utilisateurs peuvent explorer les données via Claude Code avec des requêtes en langage naturel ou des commandes SQL
  • Le système est au stade expérimental Alpha et inclut aussi Lens Studio, un outil d’exploration centré sur LessWrong

Intégration à Claude et mode d’accès

  • Utilisable immédiatement depuis Claude Code ou Claude Web via la configuration d’accès API
    • Il faut autoriser l’exécution de code, la création de fichiers, l’accès réseau, et ajouter api.exopriors.com à la liste blanche des domaines
  • L’accès sans connexion est possible via la clé d’API publique exopriors_public_readonly_v1_2025
  • Il est possible d’utiliser l’option --dangerously-skip-permissions pour éviter la procédure d’approbation utilisateur à chaque appel API par le modèle Claude (avec les risques que cela implique)
  • L’usage d’un modèle Opus 4.5 ou supérieur est recommandé, et le risque d’attaque par prompt injection est explicitement mentionné

Principales fonctionnalités

  • Query : exécution de requêtes SQL sur 60 millions de documents
  • Embed : stockage et réutilisation d’embeddings pour la recherche sémantique
  • Timeout : ajustement automatique entre environ 20 et 120 secondes selon la charge
  • Cibles de recherche : divers types de documents tels que post, comment, paper, tweet
  • Lexical Search : recherche par mots-clés basée sur BM25, avec recherche de phrases et fuzzy matching
  • Semantic Search : recherche de similarité sémantique avec la distance cosinus pgvector (<=>)

Requêtes et gestion des performances

  • alignment.search() ne renvoie que les 100 meilleurs résultats BM25 et convient à l’exploration rapide par échantillonnage
  • alignment.search_exhaustive() effectue une recherche exhaustive avec pagination
  • Lignes directrices de performance
    • Recherche simple : 1–5 secondes
    • Jointure sur embeddings (jusqu’à 500 000 lignes) : 5–20 secondes
    • Agrégations complexes (jusqu’à 2 millions de lignes) : 20–60 secondes
    • Scans à grande échelle (plus de 5 millions de lignes) : timeout possible en cas de charge
  • Un affichage récapitulatif avant exécution de la requête et une procédure de confirmation utilisateur permettent d’éviter les surcharges
  • Les requêtes lourdes sont identifiées automatiquement selon des critères comme LIMIT, estimated_rows et la taille des jointures

Structure des données et vues

  • Des materialized views sont fournies dans le schéma alignment
    • Exemples : mv_hackernews_posts, mv_arxiv_papers, mv_lesswrong_comments, etc.
    • Colonnes principales : entity_id, uri, source, kind, original_author, title, score, embedding, etc.
  • Il est possible d’accéder aux métadonnées en joignant la table alignment.entities
  • La fonction alignment.author_topics() permet d’analyser les croisements entre sujets spécifiques et auteurs

Opérations vectorielles et fonctions de combinaison

  • <=> : opérateur de distance cosinus de pgvector (plus la valeur est proche de 0, plus la similarité est forte)
  • @handle : référence à un vecteur enregistré
  • Mélange vectoriel : combinaisons pondérées de concepts sous la forme scale(@rigor,.6) - scale(@hype,.3)
  • Suppression de biais : debias_vector(@axis, @topic) pour retirer l’influence d’un sujet donné
  • Le calcul de vecteurs centraux (centroid) permet de représenter le sens moyen d’un auteur ou d’une époque
  • Le calcul de temporal delta permet de suivre l’évolution d’un positionnement intellectuel dans le temps

Recherche hybride et exemples

  • Prise en charge de la recherche combinée Lexical + Semantic
    • Exemple : WITH hits AS (search(...)) <=> @q pour reranker des candidats textuels à l’aide d’un vecteur sémantique
  • Exemples BM25
    • alignment.search('corrigibility')
    • alignment.search('"inner alignment"')
  • Exemples SQL
    • Calcul de la liste des principaux auteurs sur un sujet donné
    • Pagination de résultats volumineux avec alignment.search_exhaustive()

Taille du système et conditions d’accès

  • 65M+ documents, 22M+ embeddings, 600GB+ d’index
  • Accès gratuit pour les chercheurs, avec 1,5M de tokens d’embedding inclus
  • La création d’un compte donne accès à un namespace de handle personnel, à des timeouts plus longs (jusqu’à 10 minutes) et à des limites de requêtes étendues

Résumé

  • Alignment Scry est une plateforme de requêtage de données de recherche en IA à grande échelle intégrée à Claude, avec prise en charge de la recherche hybride combinant SQL et opérations vectorielles
  • Grâce à son API publique et à des lignes directrices de requêtage claires, elle offre aux chercheurs et développeurs en IA un accès expérimental aux données
  • En s’appuyant sur un index de 600GB et plus de 60 millions de documents, elle met en place un environnement permettant d’automatiser l’exploration liée à l’alignement de l’IA et à la recherche sur l’intelligence

1 commentaires

 
GN⁺ 2026-01-01
Commentaires sur Hacker News
  • J’aime le fait que ce projet ne soit pas un simple chatbot boîte noire, mais qu’il génère du SQL
    Au lieu d’utiliser un LLM comme base de données, je pense que la bonne direction est de s’en servir comme outil de traduction du langage naturel vers un langage de requête structuré
    Je me demande toutefois s’il y a un timeout ou du sandboxing pour éviter les abus de l’API
    Je me demande aussi s’il existe un semantic bleeding entre différents jeux de données — par exemple, “optimization” peut être utilisé différemment sur ArXiv, LessWrong et HN

    • Oui, les gens veulent parfois de la précision et du contrôle
      Le planificateur de requêtes SQL reste très puissant quand il faut gérer de nombreuses vues et index
      On a aussi beaucoup travaillé la sécurité et le rate limiting, et l’analyse AST bloque les jointures dangereuses
      Claude peut utiliser des combinaisons de centroïdes vectoriels pour réduire les écarts de sens entre différents domaines
      Par exemple, on peut faire une expérience comparative en moyennant les embeddings LessWrong et ArXiv du mot “optimization”
    • J’ai fait quelque chose de similaire. J’ai transformé les historiques de conversation de Claude Code et Codex en base de données locale, interrogeable directement depuis le CLI
      J’ai résumé l’implémentation dans ce billet de blog
      C’est actuellement un client macOS, mais un moteur Linux est aussi en préparation
    • Je pense que ce genre d’approche est précisément “la vraie innovation qui restera même si la bulle IA éclate”
      Le champ d’application de l’interprétation et de la traduction en langage naturel est immense
      Au final, je pense aussi que les investissements se déplaceront vers ce type d’outils pratiques
    • Je n’ai pas d’expériences à citer, mais d’après mon vécu, la taille du modèle d’embeddings change la façon dont les sens des mots se séparent
      Plus le modèle est grand, mieux il distingue les différents sens d’un même mot
  • Projet vraiment impressionnant. Je vais l’utiliser tout de suite dans mes recherches en cours sur la théorie des cordes pour trouver des variétés de Calabi–Yau
    En travaillant avec Claude, j’ai déjà trouvé deux articles sur les flux vacua utilisant des algorithmes génétiques, et la combinaison SQL + BM25 a permis une recherche très fine
    En revanche, l’échappement des guillemets dans bash est pénible, et à cause de la limite à 100 de alignment.search(), j’ai dû utiliser search_exhaustive() pour obtenir des résultats complets

    • J’ai moi aussi utilisé cet outil récemment pour étudier les travaux de DESI sur l’évolution de l’énergie noire
      Claude a analysé le corpus ExoPriors pour résumer les principaux articles et résultats, et cela suggère que les résultats de DESI pourraient changer la direction de l’exploration en théorie des cordes
      En particulier, l’article arXiv:2511.23463 explique le phénomène de “phantom crossing” de l’énergie noire par un mélange axion-dilaton
      Je compte ensuite étendre cette recherche en intégrant les paramètres (w₀, wₐ) dans la fonction d’ajustement et en ajoutant la dynamique des axions
      Article lié : reportage de la BBC
  • Utiliser le flag “dangerously-skip-permissions” avec du texte non sûr est dangereux
    Les entrées venant d’Internet peuvent contenir des prompt injections, donc il faut impérativement exécuter cela dans un environnement sandboxé

    • J’ai moi aussi commencé à faire tourner Claude dans un devcontainer aujourd’hui, et je me demande quelle option de sandbox est la plus simple
  • Je cherche un moyen d’interroger dans les articles de sciences de la vie les informations sur les gènes et protéines contenues dans les documents complémentaires (Supplementary Material)
    Aujourd’hui, l’indexation est trop disparate, et des enseignements issus de quinze ans de recherche en génomique restent enfouis
    Avec des données en open access, je pense que cette approche pourrait fonctionner

    • J’ai fait quelque chose de similaire — papers2dataset
      Cela utilise OpenAlex pour explorer le graphe de citations et analyser des PDF en open access
      Je m’en suis servi pour trouver des agents cryoprotecteurs selon la température, mais cela pourrait aussi s’étendre à ton problème
  • Des expressions comme “intelligence explosion” ou “ARBITRARY SQL + VECTOR ALGEBRA” sonnent comme du jargon technique exagéré

    • Ce n’est pas exagéré. En ce moment, c’est vraiment une explosion de l’intelligence logicielle
      Grâce à Opus 4.5 et GPT-5.2-Codex-xhigh, la vitesse de développement a explosé
      Scry est le seul outil qui permette d’exécuter du SQL arbitraire sur un corpus massif et d’expérimenter librement des combinaisons vectorielles
  • Combiner des prompts et des jeux de données externes est aujourd’hui le canal d’exploration le plus simple et le plus puissant
    C’est un peu comme “curl | bash”, on peut expérimenter très vite

    • Oui. La combinaison Prompt + Tool + External Dataset a un potentiel énorme
  • On parle d’un outil de recherche “state-of-the-art”, mais je me demande concrètement ce qui le rend si à la pointe

    • C’est une question d’échelle. Combien d’outils permettent d’interroger le texte intégral de tous les articles arXiv ?
    • Ce n’est qu’un terme marketing. Ce n’est pas une expression protégée, donc n’importe qui peut l’utiliser
      Par exemple, le modèle Gemma était aussi qualifié de “state-of-the-art” alors qu’il était moins performant que la concurrence
      Juicero aussi était à la pointe au moment de sa sortie, mais au final il valait mieux presser à la main
    • L’outil est à la pointe, mais les sources de données sont historiques
    • Je me demande si “le premier” est ici pris au sens de “le meilleur”
  • Je développe actuellement un système autonome de recherche académique et je prévois d’y intégrer ce projet
    Pour l’instant, j’utilise l’API Edison Scientific et des prompts personnalisés, et je me demande s’il existe un projet open source
    Projet lié : gia-agentic-short

    • J’aimerais le publier en open source, mais honnêtement, j’ai du mal à en vivre en ce moment
      Si j’obtiens 5 000 $, je pense pouvoir le publier immédiatement