Alignment Scry d’ExoPriors : interroger via Claude Code un index de 600 GB issu de Hacker News, arXiv et plus encore
(exopriors.com)- Alignment Scry d’ExoPriors est une plateforme qui permet, via Claude Code, de rechercher 60 M de documents et 22 M d’embeddings collectés depuis arXiv, Hacker News, LessWrong, etc., à l’aide de SQL et d’opérations vectorielles
- Une clé d’API publique est fournie, avec prise en charge à la fois de la recherche textuelle basée sur BM25 et de la recherche sémantique basée sur la distance cosinus de pgvector
- Les fonctions
alignment.search()etalignment.search_exhaustive()permettent de distinguer une recherche rapide par échantillonnage d’une recherche exhaustive - L’API peut être appelée après une configuration simple dans Claude Web ou Claude Code, avec prise en charge d’un identifiant personnel (
@handle) et du stockage d’embeddings - Le service est ouvert gratuitement aux chercheurs et constitue un environnement expérimental important de requêtage de données à grande échelle pour la recherche en IA et l’automatisation de l’exploration d’information
Vue d’ensemble
- Alignment Scry est un système de recherche permettant d’exécuter des opérations SQL et d’algèbre vectorielle sur un index de documents liés à l’explosion de l’intelligence
- Les principales sources de données incluent arXiv, Hacker News, LessWrong, community-archive.org, etc.
- Les utilisateurs peuvent explorer les données via Claude Code avec des requêtes en langage naturel ou des commandes SQL
- Le système est au stade expérimental Alpha et inclut aussi Lens Studio, un outil d’exploration centré sur LessWrong
Intégration à Claude et mode d’accès
- Utilisable immédiatement depuis Claude Code ou Claude Web via la configuration d’accès API
- Il faut autoriser l’exécution de code, la création de fichiers, l’accès réseau, et ajouter
api.exopriors.comà la liste blanche des domaines
- Il faut autoriser l’exécution de code, la création de fichiers, l’accès réseau, et ajouter
- L’accès sans connexion est possible via la clé d’API publique
exopriors_public_readonly_v1_2025 - Il est possible d’utiliser l’option
--dangerously-skip-permissionspour éviter la procédure d’approbation utilisateur à chaque appel API par le modèle Claude (avec les risques que cela implique) - L’usage d’un modèle Opus 4.5 ou supérieur est recommandé, et le risque d’attaque par prompt injection est explicitement mentionné
Principales fonctionnalités
- Query : exécution de requêtes SQL sur 60 millions de documents
- Embed : stockage et réutilisation d’embeddings pour la recherche sémantique
- Timeout : ajustement automatique entre environ 20 et 120 secondes selon la charge
- Cibles de recherche : divers types de documents tels que post, comment, paper, tweet
- Lexical Search : recherche par mots-clés basée sur BM25, avec recherche de phrases et fuzzy matching
- Semantic Search : recherche de similarité sémantique avec la distance cosinus pgvector (
<=>)
Requêtes et gestion des performances
alignment.search()ne renvoie que les 100 meilleurs résultats BM25 et convient à l’exploration rapide par échantillonnagealignment.search_exhaustive()effectue une recherche exhaustive avec pagination- Lignes directrices de performance
- Recherche simple : 1–5 secondes
- Jointure sur embeddings (jusqu’à 500 000 lignes) : 5–20 secondes
- Agrégations complexes (jusqu’à 2 millions de lignes) : 20–60 secondes
- Scans à grande échelle (plus de 5 millions de lignes) : timeout possible en cas de charge
- Un affichage récapitulatif avant exécution de la requête et une procédure de confirmation utilisateur permettent d’éviter les surcharges
- Les requêtes lourdes sont identifiées automatiquement selon des critères comme LIMIT,
estimated_rowset la taille des jointures
Structure des données et vues
- Des materialized views sont fournies dans le schéma
alignment- Exemples :
mv_hackernews_posts,mv_arxiv_papers,mv_lesswrong_comments, etc. - Colonnes principales :
entity_id,uri,source,kind,original_author,title,score,embedding, etc.
- Exemples :
- Il est possible d’accéder aux métadonnées en joignant la table
alignment.entities - La fonction
alignment.author_topics()permet d’analyser les croisements entre sujets spécifiques et auteurs
Opérations vectorielles et fonctions de combinaison
<=>: opérateur de distance cosinus de pgvector (plus la valeur est proche de 0, plus la similarité est forte)@handle: référence à un vecteur enregistré- Mélange vectoriel : combinaisons pondérées de concepts sous la forme
scale(@rigor,.6) - scale(@hype,.3) - Suppression de biais :
debias_vector(@axis, @topic)pour retirer l’influence d’un sujet donné - Le calcul de vecteurs centraux (centroid) permet de représenter le sens moyen d’un auteur ou d’une époque
- Le calcul de temporal delta permet de suivre l’évolution d’un positionnement intellectuel dans le temps
Recherche hybride et exemples
- Prise en charge de la recherche combinée Lexical + Semantic
- Exemple :
WITH hits AS (search(...)) <=> @qpour reranker des candidats textuels à l’aide d’un vecteur sémantique
- Exemple :
- Exemples BM25
alignment.search('corrigibility')alignment.search('"inner alignment"')
- Exemples SQL
- Calcul de la liste des principaux auteurs sur un sujet donné
- Pagination de résultats volumineux avec
alignment.search_exhaustive()
Taille du système et conditions d’accès
- 65M+ documents, 22M+ embeddings, 600GB+ d’index
- Accès gratuit pour les chercheurs, avec 1,5M de tokens d’embedding inclus
- La création d’un compte donne accès à un namespace de handle personnel, à des timeouts plus longs (jusqu’à 10 minutes) et à des limites de requêtes étendues
Résumé
- Alignment Scry est une plateforme de requêtage de données de recherche en IA à grande échelle intégrée à Claude, avec prise en charge de la recherche hybride combinant SQL et opérations vectorielles
- Grâce à son API publique et à des lignes directrices de requêtage claires, elle offre aux chercheurs et développeurs en IA un accès expérimental aux données
- En s’appuyant sur un index de 600GB et plus de 60 millions de documents, elle met en place un environnement permettant d’automatiser l’exploration liée à l’alignement de l’IA et à la recherche sur l’intelligence
1 commentaires
Commentaires sur Hacker News
J’aime le fait que ce projet ne soit pas un simple chatbot boîte noire, mais qu’il génère du SQL
Au lieu d’utiliser un LLM comme base de données, je pense que la bonne direction est de s’en servir comme outil de traduction du langage naturel vers un langage de requête structuré
Je me demande toutefois s’il y a un timeout ou du sandboxing pour éviter les abus de l’API
Je me demande aussi s’il existe un semantic bleeding entre différents jeux de données — par exemple, “optimization” peut être utilisé différemment sur ArXiv, LessWrong et HN
Le planificateur de requêtes SQL reste très puissant quand il faut gérer de nombreuses vues et index
On a aussi beaucoup travaillé la sécurité et le rate limiting, et l’analyse AST bloque les jointures dangereuses
Claude peut utiliser des combinaisons de centroïdes vectoriels pour réduire les écarts de sens entre différents domaines
Par exemple, on peut faire une expérience comparative en moyennant les embeddings LessWrong et ArXiv du mot “optimization”
J’ai résumé l’implémentation dans ce billet de blog
C’est actuellement un client macOS, mais un moteur Linux est aussi en préparation
Le champ d’application de l’interprétation et de la traduction en langage naturel est immense
Au final, je pense aussi que les investissements se déplaceront vers ce type d’outils pratiques
Plus le modèle est grand, mieux il distingue les différents sens d’un même mot
Projet vraiment impressionnant. Je vais l’utiliser tout de suite dans mes recherches en cours sur la théorie des cordes pour trouver des variétés de Calabi–Yau
En travaillant avec Claude, j’ai déjà trouvé deux articles sur les flux vacua utilisant des algorithmes génétiques, et la combinaison SQL + BM25 a permis une recherche très fine
En revanche, l’échappement des guillemets dans bash est pénible, et à cause de la limite à 100 de
alignment.search(), j’ai dû utilisersearch_exhaustive()pour obtenir des résultats completsClaude a analysé le corpus ExoPriors pour résumer les principaux articles et résultats, et cela suggère que les résultats de DESI pourraient changer la direction de l’exploration en théorie des cordes
En particulier, l’article arXiv:2511.23463 explique le phénomène de “phantom crossing” de l’énergie noire par un mélange axion-dilaton
Je compte ensuite étendre cette recherche en intégrant les paramètres (w₀, wₐ) dans la fonction d’ajustement et en ajoutant la dynamique des axions
Article lié : reportage de la BBC
Utiliser le flag “dangerously-skip-permissions” avec du texte non sûr est dangereux
Les entrées venant d’Internet peuvent contenir des prompt injections, donc il faut impérativement exécuter cela dans un environnement sandboxé
Je cherche un moyen d’interroger dans les articles de sciences de la vie les informations sur les gènes et protéines contenues dans les documents complémentaires (Supplementary Material)
Aujourd’hui, l’indexation est trop disparate, et des enseignements issus de quinze ans de recherche en génomique restent enfouis
Avec des données en open access, je pense que cette approche pourrait fonctionner
Cela utilise OpenAlex pour explorer le graphe de citations et analyser des PDF en open access
Je m’en suis servi pour trouver des agents cryoprotecteurs selon la température, mais cela pourrait aussi s’étendre à ton problème
Des expressions comme “intelligence explosion” ou “ARBITRARY SQL + VECTOR ALGEBRA” sonnent comme du jargon technique exagéré
Grâce à Opus 4.5 et GPT-5.2-Codex-xhigh, la vitesse de développement a explosé
Scry est le seul outil qui permette d’exécuter du SQL arbitraire sur un corpus massif et d’expérimenter librement des combinaisons vectorielles
Combiner des prompts et des jeux de données externes est aujourd’hui le canal d’exploration le plus simple et le plus puissant
C’est un peu comme “curl | bash”, on peut expérimenter très vite
On parle d’un outil de recherche “state-of-the-art”, mais je me demande concrètement ce qui le rend si à la pointe
Par exemple, le modèle Gemma était aussi qualifié de “state-of-the-art” alors qu’il était moins performant que la concurrence
Juicero aussi était à la pointe au moment de sa sortie, mais au final il valait mieux presser à la main
Je développe actuellement un système autonome de recherche académique et je prévois d’y intégrer ce projet
Pour l’instant, j’utilise l’API Edison Scientific et des prompts personnalisés, et je me demande s’il existe un projet open source
Projet lié : gia-agentic-short
Si j’obtiens 5 000 $, je pense pouvoir le publier immédiatement