Astuces de recherche sur Internet

(gwern.net)

35 points par xguru 2021-04-26 | 1 commentaires | Partager sur WhatsApp

Récapitulatif des bases de la recherche d’informations sur Internet — articles scientifiques, pages web, livres, etc. — ainsi que des principales astuces
Un texte écrit par Gwern Branwen*, que je considère comme le meilleur parmi les sites personnels. Je n’en ai repris qu’une partie, donc allez absolument lire l’original

[ Recherche d’articles scientifiques ]

Syntaxe de recherche : opérateurs booléens, principales commandes Google (les guillemets doubles pour une correspondance exacte, le tiret pour la négation/exclusion, site: pour rechercher sur un site précis)
Configurer des raccourcis clavier pour des recherches rapides : AutoHotkey, Quicksilver, XMonad, etc.
Raccourcis du navigateur web : C-l, C-PgUp/C-PgDwn, C-w, C-t/C-T, M-[1–9]
Afficher la version HTML lors d’une recherche sur Google Scholar
Astuces pour rechercher un titre d’article scientifique

→ Raccourcir le titre ou utiliser AND/OR et - pour réduire les résultats

→ Essayer d’ajouter ou de retirer l’année..

→ Utiliser la plage de dates de Google

→ Ajouter site:archive.org pour chercher dans Internet Archive

Cas difficiles

→ Citations inversées (Reverse Citations) : consulter « related articles » et « cited by » dans Google Scholar

→ Thèses de master/doctorat : ProQuest

→ Recherche d’image inversée : utiliser Google Images, TinEye, Yandex

Astuces de recherche par domaine

→ Twitter : Google peut aussi en retrouver, mais si vous avez des infos supplémentaires, la recherche avancée de Twitter est excellente également (from:, to:, since:, until:, near:, url: ..)

→ Cours fédérales américaines : inscription à Pacer nécessaire. C’est payant (0,1 $/page), mais gratuit en dessous de 15 $ au total. Il existe aussi un miroir public appelé Recap. Une extension de navigateur Recap est également proposée

→ Bibliothèque Wellcome : on y trouve beaucoup d’anciens magazines/livres. Son SEO est tellement mauvais que la recherche via Google et autres fonctionne mal, mais cela vaut la peine d’insister

→ Anciens magazines : site:pdf-giant.net, et pour les recherches liées à l’éducation, ERIC ( site:eric.ed.gov )

Contourner les paywalls

→ Pour les livres/articles scientifiques, il est possible de passer par Libgen / Sci-Hub. Une recherche plein texte est possible via Z-Library

Quand il est impossible de trouver quelque chose par toutes les méthodes ci-dessus, endroits où l’on peut demander de l’aide à d’autres personnes

→ Subreddit : /r/scholar

→ Twitter : #icanhazpdf

→ Wikipedia Resource Request

→ LessWrong HelpDesk

Que faire après avoir trouvé une copie intégrale (Full-Text Copy)

→ Ne pas créer de lien vers des hébergeurs peu fiables : Libgen/Sci-Hub, Nber, Scribed, ResearchGate..

→ Pour les scans : édition & OCR avec gscan2pdf

→ Ajouter des métadonnées : ExifTool, pdftk

→ Si possible, l’héberger publiquement et partager le lien sur Wikipedia/Reddit

→ Astuce pour les liens PDF : on peut ajouter #page=N à la fin de l’URL pour pointer vers une page précise

Avancé

→ Utiliser des Archiver-Bot pour archiver automatiquement l’historique de recherche

→ Créer un GCSE (Google Custom Search Engine)

[Pages web]

Si vous connaissez le titre, cherchez uniquement le titre
Lors d’une recherche par URL, supprimer les paramètres inutiles
Dans Google, utiliser site: pour limiter à un domaine, ainsi que la restriction par date
Utiliser d’autres moteurs que Google

→ DuckDuckGo : la fonction Bangs permet d’utiliser directement la recherche sur des sites externes (plus de 13 000 sites pris en charge actuellement)

→ Bing/Yandex sont aussi utiles

Vérifier les archives : Internet Archive ou la méta-archive Memento

→ IA propose une fonction de consultation des URL d’un domaine entier. Il est possible de tout télécharger avec wayback_machine_downloader (Ruby)

→ Avant l’arrêt de Google Reader, Archive Team avait sauvegardé une bonne quantité de flux RSS de Google Reader et les a hébergés sur IA (possible aussi en WARC, avec des astuces de téléchargement et de recherche à la fin)

→ archive.today : un miroir similaire à IA

→ En dernier recours, on peut aussi utiliser Google Cache

[Livres numériques]

Les livres n’apparaissent pas dans Google Scholar. Utiliser la recherche Google.
Commencer par chercher avec filetype:pdf, puis utiliser Libgen
IA contient aussi beaucoup de livres, mais ils se trouvent mal en recherche, sans doute à cause d’un SEO médiocre. « titre du livre site:archive.org »

→ Si un livre présent sur IA est protégé par DRM, on peut utiliser le plugin De-DRM de Calibre

HathiTrust contient également beaucoup de scans de livres

→ Le téléchargement complet n’est pas possible, mais il existe une méthode de contournement via wget. Cette méthode peut aussi s’appliquer à la Wellcome Library

[Livres imprimés]

Chercher des livres d’occasion via Google Books ou find-more-books.com

→ eBay & Amazon ne sont pas idéaux pour acheter des livres d’occasion. Les utiliser seulement pour les informations

→ AbeBooks, Thrift Books, Better World Books, B&N, etc. sont de bons choix pour l’achat

Scanner des livres : destruction vs non-destruction, outils de découpe, astuces pour les métadonnées et la création de PDF

Gwern Branwen est un écrivain et chercheur indépendant. Il gère son site personnel https://www.gwern.net/, qui est vraiment unique

Pour moi, c’est le nec plus ultra des pages web/blogs personnels. Sa spécialité est de choisir un sujet précis, de l’explorer en profondeur, puis de tout organiser et publier.

→ « Top 5 des livres que les gens abandonnent en cours de lecture », découvert via GoodReads : https://fr.news.hada.io/topic?id=1231

1 commentaires

gguimoon 2021-04-28

Je recommande également « Conseils de recherche d’informations pour les développeurs », déjà publié auparavant. https://fr.news.hada.io/topic?id=2932

Astuces de recherche sur Internet

À lire aussi

1 commentaires