9 points par GN⁺ 2024-11-10 | 1 commentaires | Partager sur WhatsApp
  • Un outil puissant pour convertir du HTML en Markdown propre et facile à lire
  • Prend en charge les formats complexes et permet de contrôler بالكامل le processus de conversion grâce à des options personnalisées et des plugins
  • Peut être utilisé via une bibliothèque Golang ou une commande CLI, ou testé directement via une démo en ligne ou une API REST

Fonctionnalités principales

  • Bold & Italic: prend en charge le gras et l’italique, même à l’intérieur des mots
  • List: prend parfaitement en charge l’imbrication de listes ordonnées et non ordonnées
  • Blockquote: peut inclure d’autres éléments dans une citation et prend aussi en charge les citations imbriquées de façon fluide
  • Inline Code & Code Block: traite correctement les backticks et les blocs de code multiligne afin de préserver la structure du code
  • Link & Image: formate correctement les liens sur plusieurs lignes et ajoute un échappement pour les lignes vides
  • Smart Escaping: n’échappe les caractères spéciaux que lorsque c’est nécessaire afin d’éviter un rendu Markdown involontaire
  • Remove/Keep HTML: offre la possibilité de supprimer ou de conserver certaines balises HTML
  • Plugin: permet d’étendre facilement les plugins ou de créer des plugins personnalisés pour améliorer les fonctionnalités
    • Si une logique personnalisée est nécessaire, il est possible d’écrire du code et de l’enregistrer
    • Si la configuration par défaut ne convient pas, PriorityEarly permet d’exécuter la logique avant les autres
  • Converter peut être utilisé depuis plusieurs goroutines et utilise un mutex en interne

1 commentaires

 
GN⁺ 2024-11-10
Commentaires Hacker News
  • Avec l’API gratuite de Jina.ai, on peut récupérer une URL et obtenir un document Markdown sans authentification ni clé API

    • Certains sites web ne sont pas pris en charge, mais dans la plupart des cas cela permet de faire 90 % du travail
    • On peut utiliser Pandoc pour convertir du HTML en Markdown
  • Je me demande si cet outil sous licence MIT pourrait servir d’alternative à p2k, Instapaper, etc., pour lire sur Kindle

    • Ces services ont un rendu imprécis et demandent un abonnement
    • Si le projet est activement maintenu, je pourrais le tester sur divers articles et signaler les problèmes
  • J’utilise cette bibliothèque dans une fonction Lambda pour convertir des URL en Markdown et les enregistrer dans S3

    • Je la relie en webhook à toutes mes applis de bookmarks afin de sauvegarder en Markdown tout ce que je mets en favori
    • C’est pratique à importer dans Obsidian
  • C’est utile pour fournir à un LLM les données d’une page web

    • J’ai créé un outil similaire, mais limité, pour l’écosystème Elixir
    • Je pourrais m’inspirer de cette idée
  • Ce serait bien que l’outil ait une fonction de déduplication par n-grammes

    • Il faudrait une fonction pour supprimer le contenu identique dans l’en-tête et le pied de page
  • Avec Urlbox, on peut obtenir une capture d’écran fidèle d’une page web ainsi que son Markdown

    • Cette fonctionnalité est disponible avec un outil gratuit
  • RedditToMarkdown et urltomarkdown.com sont utiles pour créer des applis LLM et IA

  • Je cherche une bibliothèque similaire à utiliser dans une appli Kotlin/Spring

    • Lors de la conversion de HTML en Markdown, la chaîne de caractères du document HTML est déjà nettoyée
  • L’une des difficultés avec cet outil est la gestion des blocs de code avec coloration syntaxique

    • Je me demande comment html-to-markdown se comporte dans ce type de scénario