1 points par GN⁺ 2026-01-01 | Aucun commentaire pour le moment. | Partager sur WhatsApp
  • Alignment Scry d’ExoPriors est une plateforme qui permet, via Claude Code, de rechercher 60 M de documents et 22 M d’embeddings collectés depuis arXiv, Hacker News, LessWrong, etc., à l’aide de SQL et d’opérations vectorielles
  • Une clé d’API publique est fournie, avec prise en charge à la fois de la recherche textuelle basée sur BM25 et de la recherche sémantique basée sur la distance cosinus de pgvector
  • Les fonctions alignment.search() et alignment.search_exhaustive() permettent de distinguer une recherche rapide par échantillonnage d’une recherche exhaustive
  • L’API peut être appelée après une configuration simple dans Claude Web ou Claude Code, avec prise en charge d’un identifiant personnel (@handle) et du stockage d’embeddings
  • Le service est ouvert gratuitement aux chercheurs et constitue un environnement expérimental important de requêtage de données à grande échelle pour la recherche en IA et l’automatisation de l’exploration d’information

Vue d’ensemble

  • Alignment Scry est un système de recherche permettant d’exécuter des opérations SQL et d’algèbre vectorielle sur un index de documents liés à l’explosion de l’intelligence
    • Les principales sources de données incluent arXiv, Hacker News, LessWrong, community-archive.org, etc.
    • Les utilisateurs peuvent explorer les données via Claude Code avec des requêtes en langage naturel ou des commandes SQL
  • Le système est au stade expérimental Alpha et inclut aussi Lens Studio, un outil d’exploration centré sur LessWrong

Intégration à Claude et mode d’accès

  • Utilisable immédiatement depuis Claude Code ou Claude Web via la configuration d’accès API
    • Il faut autoriser l’exécution de code, la création de fichiers, l’accès réseau, et ajouter api.exopriors.com à la liste blanche des domaines
  • L’accès sans connexion est possible via la clé d’API publique exopriors_public_readonly_v1_2025
  • Il est possible d’utiliser l’option --dangerously-skip-permissions pour éviter la procédure d’approbation utilisateur à chaque appel API par le modèle Claude (avec les risques que cela implique)
  • L’usage d’un modèle Opus 4.5 ou supérieur est recommandé, et le risque d’attaque par prompt injection est explicitement mentionné

Principales fonctionnalités

  • Query : exécution de requêtes SQL sur 60 millions de documents
  • Embed : stockage et réutilisation d’embeddings pour la recherche sémantique
  • Timeout : ajustement automatique entre environ 20 et 120 secondes selon la charge
  • Cibles de recherche : divers types de documents tels que post, comment, paper, tweet
  • Lexical Search : recherche par mots-clés basée sur BM25, avec recherche de phrases et fuzzy matching
  • Semantic Search : recherche de similarité sémantique avec la distance cosinus pgvector (<=>)

Requêtes et gestion des performances

  • alignment.search() ne renvoie que les 100 meilleurs résultats BM25 et convient à l’exploration rapide par échantillonnage
  • alignment.search_exhaustive() effectue une recherche exhaustive avec pagination
  • Lignes directrices de performance
    • Recherche simple : 1–5 secondes
    • Jointure sur embeddings (jusqu’à 500 000 lignes) : 5–20 secondes
    • Agrégations complexes (jusqu’à 2 millions de lignes) : 20–60 secondes
    • Scans à grande échelle (plus de 5 millions de lignes) : timeout possible en cas de charge
  • Un affichage récapitulatif avant exécution de la requête et une procédure de confirmation utilisateur permettent d’éviter les surcharges
  • Les requêtes lourdes sont identifiées automatiquement selon des critères comme LIMIT, estimated_rows et la taille des jointures

Structure des données et vues

  • Des materialized views sont fournies dans le schéma alignment
    • Exemples : mv_hackernews_posts, mv_arxiv_papers, mv_lesswrong_comments, etc.
    • Colonnes principales : entity_id, uri, source, kind, original_author, title, score, embedding, etc.
  • Il est possible d’accéder aux métadonnées en joignant la table alignment.entities
  • La fonction alignment.author_topics() permet d’analyser les croisements entre sujets spécifiques et auteurs

Opérations vectorielles et fonctions de combinaison

  • <=> : opérateur de distance cosinus de pgvector (plus la valeur est proche de 0, plus la similarité est forte)
  • @handle : référence à un vecteur enregistré
  • Mélange vectoriel : combinaisons pondérées de concepts sous la forme scale(@rigor,.6) - scale(@hype,.3)
  • Suppression de biais : debias_vector(@axis, @topic) pour retirer l’influence d’un sujet donné
  • Le calcul de vecteurs centraux (centroid) permet de représenter le sens moyen d’un auteur ou d’une époque
  • Le calcul de temporal delta permet de suivre l’évolution d’un positionnement intellectuel dans le temps

Recherche hybride et exemples

  • Prise en charge de la recherche combinée Lexical + Semantic
    • Exemple : WITH hits AS (search(...)) <=> @q pour reranker des candidats textuels à l’aide d’un vecteur sémantique
  • Exemples BM25
    • alignment.search('corrigibility')
    • alignment.search('"inner alignment"')
  • Exemples SQL
    • Calcul de la liste des principaux auteurs sur un sujet donné
    • Pagination de résultats volumineux avec alignment.search_exhaustive()

Taille du système et conditions d’accès

  • 65M+ documents, 22M+ embeddings, 600GB+ d’index
  • Accès gratuit pour les chercheurs, avec 1,5M de tokens d’embedding inclus
  • La création d’un compte donne accès à un namespace de handle personnel, à des timeouts plus longs (jusqu’à 10 minutes) et à des limites de requêtes étendues

Résumé

  • Alignment Scry est une plateforme de requêtage de données de recherche en IA à grande échelle intégrée à Claude, avec prise en charge de la recherche hybride combinant SQL et opérations vectorielles
  • Grâce à son API publique et à des lignes directrices de requêtage claires, elle offre aux chercheurs et développeurs en IA un accès expérimental aux données
  • En s’appuyant sur un index de 600GB et plus de 60 millions de documents, elle met en place un environnement permettant d’automatiser l’exploration liée à l’alignement de l’IA et à la recherche sur l’intelligence

Aucun commentaire pour le moment.

Aucun commentaire pour le moment.