Alignment Scry d’ExoPriors : interroger via Claude Code un index de 600 GB issu de Hacker News, arXiv et plus encore

(exopriors.com)

1 points par GN⁺ 2026-01-01 | 1 commentaires | Partager sur WhatsApp

Alignment Scry d’ExoPriors est une plateforme qui permet, via Claude Code, de rechercher 60 M de documents et 22 M d’embeddings collectés depuis arXiv, Hacker News, LessWrong, etc., à l’aide de SQL et d’opérations vectorielles
Une clé d’API publique est fournie, avec prise en charge à la fois de la recherche textuelle basée sur BM25 et de la recherche sémantique basée sur la distance cosinus de pgvector
Les fonctions alignment.search() et alignment.search_exhaustive() permettent de distinguer une recherche rapide par échantillonnage d’une recherche exhaustive
L’API peut être appelée après une configuration simple dans Claude Web ou Claude Code, avec prise en charge d’un identifiant personnel (@handle) et du stockage d’embeddings
Le service est ouvert gratuitement aux chercheurs et constitue un environnement expérimental important de requêtage de données à grande échelle pour la recherche en IA et l’automatisation de l’exploration d’information

Vue d’ensemble

Alignment Scry est un système de recherche permettant d’exécuter des opérations SQL et d’algèbre vectorielle sur un index de documents liés à l’explosion de l’intelligence
- Les principales sources de données incluent arXiv, Hacker News, LessWrong, community-archive.org, etc.
- Les utilisateurs peuvent explorer les données via Claude Code avec des requêtes en langage naturel ou des commandes SQL
Le système est au stade expérimental Alpha et inclut aussi Lens Studio, un outil d’exploration centré sur LessWrong

Intégration à Claude et mode d’accès

Utilisable immédiatement depuis Claude Code ou Claude Web via la configuration d’accès API
- Il faut autoriser l’exécution de code, la création de fichiers, l’accès réseau, et ajouter api.exopriors.com à la liste blanche des domaines
L’accès sans connexion est possible via la clé d’API publique exopriors_public_readonly_v1_2025
Il est possible d’utiliser l’option --dangerously-skip-permissions pour éviter la procédure d’approbation utilisateur à chaque appel API par le modèle Claude (avec les risques que cela implique)
L’usage d’un modèle Opus 4.5 ou supérieur est recommandé, et le risque d’attaque par prompt injection est explicitement mentionné

Principales fonctionnalités

Query : exécution de requêtes SQL sur 60 millions de documents
Embed : stockage et réutilisation d’embeddings pour la recherche sémantique
Timeout : ajustement automatique entre environ 20 et 120 secondes selon la charge
Cibles de recherche : divers types de documents tels que post, comment, paper, tweet
Lexical Search : recherche par mots-clés basée sur BM25, avec recherche de phrases et fuzzy matching
Semantic Search : recherche de similarité sémantique avec la distance cosinus pgvector (<=>)

Requêtes et gestion des performances

alignment.search() ne renvoie que les 100 meilleurs résultats BM25 et convient à l’exploration rapide par échantillonnage
alignment.search_exhaustive() effectue une recherche exhaustive avec pagination
Lignes directrices de performance
- Recherche simple : 1–5 secondes
- Jointure sur embeddings (jusqu’à 500 000 lignes) : 5–20 secondes
- Agrégations complexes (jusqu’à 2 millions de lignes) : 20–60 secondes
- Scans à grande échelle (plus de 5 millions de lignes) : timeout possible en cas de charge
Un affichage récapitulatif avant exécution de la requête et une procédure de confirmation utilisateur permettent d’éviter les surcharges
Les requêtes lourdes sont identifiées automatiquement selon des critères comme LIMIT, estimated_rows et la taille des jointures

Structure des données et vues

Des materialized views sont fournies dans le schéma alignment
- Exemples : mv_hackernews_posts, mv_arxiv_papers, mv_lesswrong_comments, etc.
- Colonnes principales : entity_id, uri, source, kind, original_author, title, score, embedding, etc.
Il est possible d’accéder aux métadonnées en joignant la table alignment.entities
La fonction alignment.author_topics() permet d’analyser les croisements entre sujets spécifiques et auteurs

Opérations vectorielles et fonctions de combinaison

<=> : opérateur de distance cosinus de pgvector (plus la valeur est proche de 0, plus la similarité est forte)
@handle : référence à un vecteur enregistré
Mélange vectoriel : combinaisons pondérées de concepts sous la forme scale(@rigor,.6) - scale(@hype,.3)
Suppression de biais : debias_vector(@axis, @topic) pour retirer l’influence d’un sujet donné
Le calcul de vecteurs centraux (centroid) permet de représenter le sens moyen d’un auteur ou d’une époque
Le calcul de temporal delta permet de suivre l’évolution d’un positionnement intellectuel dans le temps

Recherche hybride et exemples

Prise en charge de la recherche combinée Lexical + Semantic
- Exemple : WITH hits AS (search(...)) <=> @q pour reranker des candidats textuels à l’aide d’un vecteur sémantique
Exemples BM25
- alignment.search('corrigibility')
- alignment.search('"inner alignment"')
Exemples SQL
- Calcul de la liste des principaux auteurs sur un sujet donné
- Pagination de résultats volumineux avec alignment.search_exhaustive()

Taille du système et conditions d’accès

65M+ documents, 22M+ embeddings, 600GB+ d’index
Accès gratuit pour les chercheurs, avec 1,5M de tokens d’embedding inclus
La création d’un compte donne accès à un namespace de handle personnel, à des timeouts plus longs (jusqu’à 10 minutes) et à des limites de requêtes étendues

Résumé

Alignment Scry est une plateforme de requêtage de données de recherche en IA à grande échelle intégrée à Claude, avec prise en charge de la recherche hybride combinant SQL et opérations vectorielles
Grâce à son API publique et à des lignes directrices de requêtage claires, elle offre aux chercheurs et développeurs en IA un accès expérimental aux données
En s’appuyant sur un index de 600GB et plus de 60 millions de documents, elle met en place un environnement permettant d’automatiser l’exploration liée à l’alignement de l’IA et à la recherche sur l’intelligence

1 commentaires

GN⁺ 2026-01-01

Commentaires sur Hacker News

J’aime le fait que ce projet ne soit pas un simple chatbot boîte noire, mais qu’il génère du SQL
Au lieu d’utiliser un LLM comme base de données, je pense que la bonne direction est de s’en servir comme outil de traduction du langage naturel vers un langage de requête structuré
Je me demande toutefois s’il y a un timeout ou du sandboxing pour éviter les abus de l’API
Je me demande aussi s’il existe un semantic bleeding entre différents jeux de données — par exemple, “optimization” peut être utilisé différemment sur ArXiv, LessWrong et HN
- Oui, les gens veulent parfois de la précision et du contrôle
  Le planificateur de requêtes SQL reste très puissant quand il faut gérer de nombreuses vues et index
  On a aussi beaucoup travaillé la sécurité et le rate limiting, et l’analyse AST bloque les jointures dangereuses
  Claude peut utiliser des combinaisons de centroïdes vectoriels pour réduire les écarts de sens entre différents domaines
  Par exemple, on peut faire une expérience comparative en moyennant les embeddings LessWrong et ArXiv du mot “optimization”
- J’ai fait quelque chose de similaire. J’ai transformé les historiques de conversation de Claude Code et Codex en base de données locale, interrogeable directement depuis le CLI
  J’ai résumé l’implémentation dans ce billet de blog
  C’est actuellement un client macOS, mais un moteur Linux est aussi en préparation
- Je pense que ce genre d’approche est précisément “la vraie innovation qui restera même si la bulle IA éclate”
  Le champ d’application de l’interprétation et de la traduction en langage naturel est immense
  Au final, je pense aussi que les investissements se déplaceront vers ce type d’outils pratiques
- Je n’ai pas d’expériences à citer, mais d’après mon vécu, la taille du modèle d’embeddings change la façon dont les sens des mots se séparent
  Plus le modèle est grand, mieux il distingue les différents sens d’un même mot
Projet vraiment impressionnant. Je vais l’utiliser tout de suite dans mes recherches en cours sur la théorie des cordes pour trouver des variétés de Calabi–Yau
En travaillant avec Claude, j’ai déjà trouvé deux articles sur les flux vacua utilisant des algorithmes génétiques, et la combinaison SQL + BM25 a permis une recherche très fine
En revanche, l’échappement des guillemets dans bash est pénible, et à cause de la limite à 100 de alignment.search(), j’ai dû utiliser search_exhaustive() pour obtenir des résultats complets
- J’ai moi aussi utilisé cet outil récemment pour étudier les travaux de DESI sur l’évolution de l’énergie noire
  Claude a analysé le corpus ExoPriors pour résumer les principaux articles et résultats, et cela suggère que les résultats de DESI pourraient changer la direction de l’exploration en théorie des cordes
  En particulier, l’article arXiv:2511.23463 explique le phénomène de “phantom crossing” de l’énergie noire par un mélange axion-dilaton
  Je compte ensuite étendre cette recherche en intégrant les paramètres (w₀, wₐ) dans la fonction d’ajustement et en ajoutant la dynamique des axions
  Article lié : reportage de la BBC
Utiliser le flag “dangerously-skip-permissions” avec du texte non sûr est dangereux
Les entrées venant d’Internet peuvent contenir des prompt injections, donc il faut impérativement exécuter cela dans un environnement sandboxé
- J’ai moi aussi commencé à faire tourner Claude dans un devcontainer aujourd’hui, et je me demande quelle option de sandbox est la plus simple
Je cherche un moyen d’interroger dans les articles de sciences de la vie les informations sur les gènes et protéines contenues dans les documents complémentaires (Supplementary Material)
Aujourd’hui, l’indexation est trop disparate, et des enseignements issus de quinze ans de recherche en génomique restent enfouis
Avec des données en open access, je pense que cette approche pourrait fonctionner
- J’ai fait quelque chose de similaire — papers2dataset
  Cela utilise OpenAlex pour explorer le graphe de citations et analyser des PDF en open access
  Je m’en suis servi pour trouver des agents cryoprotecteurs selon la température, mais cela pourrait aussi s’étendre à ton problème
Des expressions comme “intelligence explosion” ou “ARBITRARY SQL + VECTOR ALGEBRA” sonnent comme du jargon technique exagéré
- Ce n’est pas exagéré. En ce moment, c’est vraiment une explosion de l’intelligence logicielle
  Grâce à Opus 4.5 et GPT-5.2-Codex-xhigh, la vitesse de développement a explosé
  Scry est le seul outil qui permette d’exécuter du SQL arbitraire sur un corpus massif et d’expérimenter librement des combinaisons vectorielles
Combiner des prompts et des jeux de données externes est aujourd’hui le canal d’exploration le plus simple et le plus puissant
C’est un peu comme “curl | bash”, on peut expérimenter très vite
- Oui. La combinaison Prompt + Tool + External Dataset a un potentiel énorme
On parle d’un outil de recherche “state-of-the-art”, mais je me demande concrètement ce qui le rend si à la pointe
- C’est une question d’échelle. Combien d’outils permettent d’interroger le texte intégral de tous les articles arXiv ?
- Ce n’est qu’un terme marketing. Ce n’est pas une expression protégée, donc n’importe qui peut l’utiliser
  Par exemple, le modèle Gemma était aussi qualifié de “state-of-the-art” alors qu’il était moins performant que la concurrence
  Juicero aussi était à la pointe au moment de sa sortie, mais au final il valait mieux presser à la main
- L’outil est à la pointe, mais les sources de données sont historiques
- Je me demande si “le premier” est ici pris au sens de “le meilleur”
Je développe actuellement un système autonome de recherche académique et je prévois d’y intégrer ce projet
Pour l’instant, j’utilise l’API Edison Scientific et des prompts personnalisés, et je me demande s’il existe un projet open source
Projet lié : gia-agentic-short
- J’aimerais le publier en open source, mais honnêtement, j’ai du mal à en vivre en ce moment
  Si j’obtiens 5 000 $, je pense pouvoir le publier immédiatement

Alignment Scry d’ExoPriors : interroger via Claude Code un index de 600 GB issu de Hacker News, arXiv et plus encore

Vue d’ensemble

Intégration à Claude et mode d’accès

Principales fonctionnalités

Requêtes et gestion des performances

Structure des données et vues

Opérations vectorielles et fonctions de combinaison

Recherche hybride et exemples

Taille du système et conditions d’accès

Résumé

À lire aussi

1 commentaires

Commentaires sur Hacker News