- Alignment Scry d’ExoPriors est une plateforme qui permet, via Claude Code, de rechercher 60 M de documents et 22 M d’embeddings collectés depuis arXiv, Hacker News, LessWrong, etc., à l’aide de SQL et d’opérations vectorielles
- Une clé d’API publique est fournie, avec prise en charge à la fois de la recherche textuelle basée sur BM25 et de la recherche sémantique basée sur la distance cosinus de pgvector
- Les fonctions
alignment.search() et alignment.search_exhaustive() permettent de distinguer une recherche rapide par échantillonnage d’une recherche exhaustive
- L’API peut être appelée après une configuration simple dans Claude Web ou Claude Code, avec prise en charge d’un identifiant personnel (
@handle) et du stockage d’embeddings
- Le service est ouvert gratuitement aux chercheurs et constitue un environnement expérimental important de requêtage de données à grande échelle pour la recherche en IA et l’automatisation de l’exploration d’information
Vue d’ensemble
- Alignment Scry est un système de recherche permettant d’exécuter des opérations SQL et d’algèbre vectorielle sur un index de documents liés à l’explosion de l’intelligence
- Les principales sources de données incluent arXiv, Hacker News, LessWrong, community-archive.org, etc.
- Les utilisateurs peuvent explorer les données via Claude Code avec des requêtes en langage naturel ou des commandes SQL
- Le système est au stade expérimental Alpha et inclut aussi Lens Studio, un outil d’exploration centré sur LessWrong
Intégration à Claude et mode d’accès
- Utilisable immédiatement depuis Claude Code ou Claude Web via la configuration d’accès API
- Il faut autoriser l’exécution de code, la création de fichiers, l’accès réseau, et ajouter
api.exopriors.com à la liste blanche des domaines
- L’accès sans connexion est possible via la clé d’API publique
exopriors_public_readonly_v1_2025
- Il est possible d’utiliser l’option
--dangerously-skip-permissions pour éviter la procédure d’approbation utilisateur à chaque appel API par le modèle Claude (avec les risques que cela implique)
- L’usage d’un modèle Opus 4.5 ou supérieur est recommandé, et le risque d’attaque par prompt injection est explicitement mentionné
Principales fonctionnalités
- Query : exécution de requêtes SQL sur 60 millions de documents
- Embed : stockage et réutilisation d’embeddings pour la recherche sémantique
- Timeout : ajustement automatique entre environ 20 et 120 secondes selon la charge
- Cibles de recherche : divers types de documents tels que post, comment, paper, tweet
- Lexical Search : recherche par mots-clés basée sur BM25, avec recherche de phrases et fuzzy matching
- Semantic Search : recherche de similarité sémantique avec la distance cosinus pgvector (
<=>)
Requêtes et gestion des performances
alignment.search() ne renvoie que les 100 meilleurs résultats BM25 et convient à l’exploration rapide par échantillonnage
alignment.search_exhaustive() effectue une recherche exhaustive avec pagination
- Lignes directrices de performance
- Recherche simple : 1–5 secondes
- Jointure sur embeddings (jusqu’à 500 000 lignes) : 5–20 secondes
- Agrégations complexes (jusqu’à 2 millions de lignes) : 20–60 secondes
- Scans à grande échelle (plus de 5 millions de lignes) : timeout possible en cas de charge
- Un affichage récapitulatif avant exécution de la requête et une procédure de confirmation utilisateur permettent d’éviter les surcharges
- Les requêtes lourdes sont identifiées automatiquement selon des critères comme LIMIT,
estimated_rows et la taille des jointures
Structure des données et vues
- Des materialized views sont fournies dans le schéma
alignment
- Exemples :
mv_hackernews_posts, mv_arxiv_papers, mv_lesswrong_comments, etc.
- Colonnes principales :
entity_id, uri, source, kind, original_author, title, score, embedding, etc.
- Il est possible d’accéder aux métadonnées en joignant la table
alignment.entities
- La fonction
alignment.author_topics() permet d’analyser les croisements entre sujets spécifiques et auteurs
Opérations vectorielles et fonctions de combinaison
<=> : opérateur de distance cosinus de pgvector (plus la valeur est proche de 0, plus la similarité est forte)
@handle : référence à un vecteur enregistré
- Mélange vectoriel : combinaisons pondérées de concepts sous la forme
scale(@rigor,.6) - scale(@hype,.3)
- Suppression de biais :
debias_vector(@axis, @topic) pour retirer l’influence d’un sujet donné
- Le calcul de vecteurs centraux (centroid) permet de représenter le sens moyen d’un auteur ou d’une époque
- Le calcul de temporal delta permet de suivre l’évolution d’un positionnement intellectuel dans le temps
Recherche hybride et exemples
- Prise en charge de la recherche combinée Lexical + Semantic
- Exemple :
WITH hits AS (search(...)) <=> @q pour reranker des candidats textuels à l’aide d’un vecteur sémantique
- Exemples BM25
alignment.search('corrigibility')
alignment.search('"inner alignment"')
- Exemples SQL
- Calcul de la liste des principaux auteurs sur un sujet donné
- Pagination de résultats volumineux avec
alignment.search_exhaustive()
Taille du système et conditions d’accès
- 65M+ documents, 22M+ embeddings, 600GB+ d’index
- Accès gratuit pour les chercheurs, avec 1,5M de tokens d’embedding inclus
- La création d’un compte donne accès à un namespace de handle personnel, à des timeouts plus longs (jusqu’à 10 minutes) et à des limites de requêtes étendues
Résumé
- Alignment Scry est une plateforme de requêtage de données de recherche en IA à grande échelle intégrée à Claude, avec prise en charge de la recherche hybride combinant SQL et opérations vectorielles
- Grâce à son API publique et à des lignes directrices de requêtage claires, elle offre aux chercheurs et développeurs en IA un accès expérimental aux données
- En s’appuyant sur un index de 600GB et plus de 60 millions de documents, elle met en place un environnement permettant d’automatiser l’exploration liée à l’alignement de l’IA et à la recherche sur l’intelligence
Aucun commentaire pour le moment.