Astuces de recherche sur Internet
(gwern.net)-
Récapitulatif des bases de la recherche d’informations sur Internet — articles scientifiques, pages web, livres, etc. — ainsi que des principales astuces
-
Un texte écrit par Gwern Branwen*, que je considère comme le meilleur parmi les sites personnels. Je n’en ai repris qu’une partie, donc allez absolument lire l’original
[ Recherche d’articles scientifiques ]
-
Syntaxe de recherche : opérateurs booléens, principales commandes Google (les guillemets doubles pour une correspondance exacte, le tiret pour la négation/exclusion,
site:pour rechercher sur un site précis) -
Configurer des raccourcis clavier pour des recherches rapides : AutoHotkey, Quicksilver, XMonad, etc.
-
Raccourcis du navigateur web : C-l, C-PgUp/C-PgDwn, C-w, C-t/C-T, M-[1–9]
-
Afficher la version HTML lors d’une recherche sur Google Scholar
-
Astuces pour rechercher un titre d’article scientifique
→ Raccourcir le titre ou utiliser AND/OR et - pour réduire les résultats
→ Essayer d’ajouter ou de retirer l’année..
→ Utiliser la plage de dates de Google
→ Ajouter site:archive.org pour chercher dans Internet Archive
- Cas difficiles
→ Citations inversées (Reverse Citations) : consulter « related articles » et « cited by » dans Google Scholar
→ Thèses de master/doctorat : ProQuest
→ Recherche d’image inversée : utiliser Google Images, TinEye, Yandex
- Astuces de recherche par domaine
→ Twitter : Google peut aussi en retrouver, mais si vous avez des infos supplémentaires, la recherche avancée de Twitter est excellente également (from:, to:, since:, until:, near:, url: ..)
→ Cours fédérales américaines : inscription à Pacer nécessaire. C’est payant (0,1 $/page), mais gratuit en dessous de 15 $ au total. Il existe aussi un miroir public appelé Recap. Une extension de navigateur Recap est également proposée
→ Bibliothèque Wellcome : on y trouve beaucoup d’anciens magazines/livres. Son SEO est tellement mauvais que la recherche via Google et autres fonctionne mal, mais cela vaut la peine d’insister
→ Anciens magazines : site:pdf-giant.net, et pour les recherches liées à l’éducation, ERIC ( site:eric.ed.gov )
- Contourner les paywalls
→ Pour les livres/articles scientifiques, il est possible de passer par Libgen / Sci-Hub. Une recherche plein texte est possible via Z-Library
- Quand il est impossible de trouver quelque chose par toutes les méthodes ci-dessus, endroits où l’on peut demander de l’aide à d’autres personnes
→ Subreddit : /r/scholar
→ Twitter : #icanhazpdf
→ Wikipedia Resource Request
→ LessWrong HelpDesk
- Que faire après avoir trouvé une copie intégrale (Full-Text Copy)
→ Ne pas créer de lien vers des hébergeurs peu fiables : Libgen/Sci-Hub, Nber, Scribed, ResearchGate..
→ Pour les scans : édition & OCR avec gscan2pdf
→ Ajouter des métadonnées : ExifTool, pdftk
→ Si possible, l’héberger publiquement et partager le lien sur Wikipedia/Reddit
→ Astuce pour les liens PDF : on peut ajouter #page=N à la fin de l’URL pour pointer vers une page précise
- Avancé
→ Utiliser des Archiver-Bot pour archiver automatiquement l’historique de recherche
→ Créer un GCSE (Google Custom Search Engine)
[Pages web]
-
Si vous connaissez le titre, cherchez uniquement le titre
-
Lors d’une recherche par URL, supprimer les paramètres inutiles
-
Dans Google, utiliser
site:pour limiter à un domaine, ainsi que la restriction par date -
Utiliser d’autres moteurs que Google
→ DuckDuckGo : la fonction Bangs permet d’utiliser directement la recherche sur des sites externes (plus de 13 000 sites pris en charge actuellement)
→ Bing/Yandex sont aussi utiles
- Vérifier les archives : Internet Archive ou la méta-archive Memento
→ IA propose une fonction de consultation des URL d’un domaine entier. Il est possible de tout télécharger avec wayback_machine_downloader (Ruby)
→ Avant l’arrêt de Google Reader, Archive Team avait sauvegardé une bonne quantité de flux RSS de Google Reader et les a hébergés sur IA (possible aussi en WARC, avec des astuces de téléchargement et de recherche à la fin)
→ archive.today : un miroir similaire à IA
→ En dernier recours, on peut aussi utiliser Google Cache
[Livres numériques]
-
Les livres n’apparaissent pas dans Google Scholar. Utiliser la recherche Google.
-
Commencer par chercher avec
filetype:pdf, puis utiliser Libgen -
IA contient aussi beaucoup de livres, mais ils se trouvent mal en recherche, sans doute à cause d’un SEO médiocre. « titre du livre
site:archive.org»
→ Si un livre présent sur IA est protégé par DRM, on peut utiliser le plugin De-DRM de Calibre
- HathiTrust contient également beaucoup de scans de livres
→ Le téléchargement complet n’est pas possible, mais il existe une méthode de contournement via wget. Cette méthode peut aussi s’appliquer à la Wellcome Library
[Livres imprimés]
- Chercher des livres d’occasion via Google Books ou find-more-books.com
→ eBay & Amazon ne sont pas idéaux pour acheter des livres d’occasion. Les utiliser seulement pour les informations
→ AbeBooks, Thrift Books, Better World Books, B&N, etc. sont de bons choix pour l’achat
- Scanner des livres : destruction vs non-destruction, outils de découpe, astuces pour les métadonnées et la création de PDF
- Gwern Branwen est un écrivain et chercheur indépendant. Il gère son site personnel https://www.gwern.net/, qui est vraiment unique
Pour moi, c’est le nec plus ultra des pages web/blogs personnels. Sa spécialité est de choisir un sujet précis, de l’explorer en profondeur, puis de tout organiser et publier.
→ « Top 5 des livres que les gens abandonnent en cours de lecture », découvert via GoodReads : https://fr.news.hada.io/topic?id=1231
1 commentaires
Je recommande également « Conseils de recherche d’informations pour les développeurs », déjà publié auparavant. https://fr.news.hada.io/topic?id=2932