Personnellement, j’utilise Clojure, et je suis largement d’accord avec le contenu de l’article.
Dans mon travail, j’ai surtout utilisé Python et Java(Type)Script, mais dès qu’on relâche un peu la maintenance, il devient facile de ne plus suivre l’évolution du langage lui-même et de ses bibliothèques, et le code se transforme vite en legacy code. Avec Clojure, en revanche, j’ai été très satisfait de constater qu’un code écrit une fois reste très facile à relire, modifier et faire évoluer, même un an plus tard.
Depuis, pour mes usages personnels, sauf contrainte liée à une bibliothèque spécifique, j’utilise volontiers Clojure.
C’est extrêmement cher, le rapport qualité-prix n’y est pas. En usage réel, j’ai plutôt l’impression que o3-mini est préférable, mais pour du codage, il semble être le meilleur dans son genre puisqu’il faut une phase de raisonnement courte et résoudre la question des tokens intermédiaires. Le prix aussi…
Je suis hahnlee, celui qui a développé hwp.js (https://github.com/hahnlee/hwp.js) :)
À l’époque où j’ai développé ce projet, et encore aujourd’hui, je n’aime pas vraiment HWP. Surtout en ce qui concerne son niveau d’ouverture.
En revanche, je suis assez d’accord avec l’idée que « le format HWP possède des éléments avantageux pour l’entraînement de l’IA ».
Pour parler de mon expérience lors de la mise en place d’un RAG, en Corée on utilise particulièrement beaucoup les tableaux. Or, dans le cas du PDF, comme c’est un format conçu en supposant l’impression, il n’y a pas de « tableau » dans un PDF. Il n’y a que des lignes et du texte.
C’est pourquoi il était difficile d’extraire des données à partir d’informations tabulaires complexes sur la base de documents PDF. En particulier lorsque les tableaux s’étendaient sur plusieurs pages.
Pour faire une comparaison un peu grossière, si le HWP donne l’impression d’être une sorte de document en rich text, le PDF ressemblait plutôt à un document txt. Bien sûr, cela ne vaut que pour la question des « tableaux ».
Mais est-ce que c’est un avantage distinctif propre au format HWP ? Je ne le pense pas. Pour les choses simples, Markdown suffit largement, et si c’est un peu plus complexe, je pense qu’il vaut mieux le définir en HTML.
Et surtout, docx et odt ont eux aussi exactement les mêmes avantages.
Je n’aime pas le hwp et je ne peux pas vraiment dire du bien des produits de l’entreprise Hancom actuelle, mais je pense qu’autrefois, le produit lui-même était un logiciel bien supérieur à Word.
Pour donner une réponse précise, même pour un même livre, si le format diffère, il faut obtenir un ISBN distinct. Même les ebooks au format epub et pdf doivent avoir des ISBN séparés.
Pour répondre à la personne au-dessus, dans le cas des ebooks en Corée, comme mentionné dans l’article, il s’agit d’acheter un « droit de service », ce qui est un peu différent de la notion de possession du contenu lui-même. De plus, chaque librairie applique parfois un DRM différent. C’est pourquoi il n’est pas possible d’utiliser confortablement, dans n’importe quel environnement, un ebook acheté avec son propre argent ; il faut une loi adaptée à notre époque. Snif snif.
Personnellement, comme avec le MyData dans le secteur financier, j’aimerais que les contenus numériques puissent aussi être consommés dans la forme que je souhaite, peu importe l’endroit où je les ai achetés.
Je ne comprends pas pourquoi le cache est nécessaire. Dans l'approche classique, on n'avait pas besoin de cache, et les situations où il faut en utiliser sont extrêmement limitées, alors pourquoi s'acharner inutilement sur le cache au point d'en faire une question de vie ou de mort ?
Je pense que cette destruction de la sécurité par les responsables politiques n’est rien d’autre qu’une attitude du type « il n’y aura que moi qui l’utiliserai ». Quand on se déplace avec plusieurs assistants, ne pas être capable de comprendre une technologie de ce niveau, c’est de la négligence professionnelle.
J’ai bien appris le traitement de texte avec Hangul Word Processor, mais j’estime qu’à ce stade, ce n’est plus qu’un vestige qui devrait disparaître pour le progrès de la Corée du Sud.
Même en Russie, ils ont réprimé Telegram de cette façon, mais quand il s’agit de faire la guerre, ils utilisent finalement Telegram ; le gouvernement coréen aussi a présenté Telegram comme l’axe du mal, puis on a découvert qu’eux-mêmes utilisaient en réalité Telegram, et même Signal. Une sécurité qui ne m’avantage que moi, ça n’existe pas dans ce monde, et je me dis qu’il y a peut-être aussi un manque de compréhension de la technologie.
Personnellement, j’utilise Clojure, et je suis largement d’accord avec le contenu de l’article.
Dans mon travail, j’ai surtout utilisé Python et Java(Type)Script, mais dès qu’on relâche un peu la maintenance, il devient facile de ne plus suivre l’évolution du langage lui-même et de ses bibliothèques, et le code se transforme vite en legacy code. Avec Clojure, en revanche, j’ai été très satisfait de constater qu’un code écrit une fois reste très facile à relire, modifier et faire évoluer, même un an plus tard.
Depuis, pour mes usages personnels, sauf contrainte liée à une bibliothèque spécifique, j’utilise volontiers Clojure.
Vous écrivez très bien.
J’ai pris beaucoup de plaisir à vous lire !
C’est extrêmement cher, le rapport qualité-prix n’y est pas. En usage réel, j’ai plutôt l’impression que o3-mini est préférable, mais pour du codage, il semble être le meilleur dans son genre puisqu’il faut une phase de raisonnement courte et résoudre la question des tokens intermédiaires. Le prix aussi…
L’écart de prix est trop important pour comparer avec Flash 2.. C’est pile un niveau intermédiaire entre o1pro et o3-mini
Je suis hahnlee, celui qui a développé hwp.js (https://github.com/hahnlee/hwp.js) :)
À l’époque où j’ai développé ce projet, et encore aujourd’hui, je n’aime pas vraiment HWP. Surtout en ce qui concerne son niveau d’ouverture.
En revanche, je suis assez d’accord avec l’idée que « le format HWP possède des éléments avantageux pour l’entraînement de l’IA ».
Pour parler de mon expérience lors de la mise en place d’un RAG, en Corée on utilise particulièrement beaucoup les tableaux. Or, dans le cas du PDF, comme c’est un format conçu en supposant l’impression, il n’y a pas de « tableau » dans un PDF. Il n’y a que des lignes et du texte.
C’est pourquoi il était difficile d’extraire des données à partir d’informations tabulaires complexes sur la base de documents PDF. En particulier lorsque les tableaux s’étendaient sur plusieurs pages.
Pour faire une comparaison un peu grossière, si le HWP donne l’impression d’être une sorte de document en rich text, le PDF ressemblait plutôt à un document txt. Bien sûr, cela ne vaut que pour la question des « tableaux ».
Mais est-ce que c’est un avantage distinctif propre au format HWP ? Je ne le pense pas. Pour les choses simples, Markdown suffit largement, et si c’est un peu plus complexe, je pense qu’il vaut mieux le définir en HTML.
Et surtout, docx et odt ont eux aussi exactement les mêmes avantages.
Après s’être fait complètement écraser par IE, Netscape a publié son code source et s’est mis à réagir après coup avec beaucoup d’énergie.
Je n’aime pas le hwp et je ne peux pas vraiment dire du bien des produits de l’entreprise Hancom actuelle, mais je pense qu’autrefois, le produit lui-même était un logiciel bien supérieur à Word.
Pour donner une réponse précise, même pour un même livre, si le format diffère, il faut obtenir un ISBN distinct. Même les ebooks au format epub et pdf doivent avoir des ISBN séparés.
Pour répondre à la personne au-dessus, dans le cas des ebooks en Corée, comme mentionné dans l’article, il s’agit d’acheter un « droit de service », ce qui est un peu différent de la notion de possession du contenu lui-même. De plus, chaque librairie applique parfois un DRM différent. C’est pourquoi il n’est pas possible d’utiliser confortablement, dans n’importe quel environnement, un ebook acheté avec son propre argent ; il faut une loi adaptée à notre époque. Snif snif.
Personnellement, comme avec le MyData dans le secteur financier, j’aimerais que les contenus numériques puissent aussi être consommés dans la forme que je souhaite, peu importe l’endroit où je les ai achetés.
Ah, d’accord… je comprends. hahaha
Hein ?
Je ne comprends pas pourquoi le cache est nécessaire. Dans l'approche classique, on n'avait pas besoin de cache, et les situations où il faut en utiliser sont extrêmement limitées, alors pourquoi s'acharner inutilement sur le cache au point d'en faire une question de vie ou de mort ?
Une présence malheureuse qui n’est jamais devenue un standard mondial
Je pense que cette destruction de la sécurité par les responsables politiques n’est rien d’autre qu’une attitude du type « il n’y aura que moi qui l’utiliserai ». Quand on se déplace avec plusieurs assistants, ne pas être capable de comprendre une technologie de ce niveau, c’est de la négligence professionnelle.
J’ai bien appris le traitement de texte avec Hangul Word Processor, mais j’estime qu’à ce stade, ce n’est plus qu’un vestige qui devrait disparaître pour le progrès de la Corée du Sud.
Même en Russie, ils ont réprimé Telegram de cette façon, mais quand il s’agit de faire la guerre, ils utilisent finalement Telegram ; le gouvernement coréen aussi a présenté Telegram comme l’axe du mal, puis on a découvert qu’eux-mêmes utilisaient en réalité Telegram, et même Signal. Une sécurité qui ne m’avantage que moi, ça n’existe pas dans ce monde, et je me dis qu’il y a peut-être aussi un manque de compréhension de la technologie.
Moi aussi, en lisant ce passage, ça m'a surpris, mais en voyant le domaine de la source originale, j'ai compris mdr
« Le format HWP possède des éléments favorables à l'entraînement de l'IA »
C'est vraiment vrai..?
Je n’adhère pas vraiment. À la rigueur, s’il s’agissait de
hwpxcomme mentionné dans l’article, pourquoi pas…Pourquoi Clojure ?
Jank Jank~!
C’est vraiment un manifeste débordant d’énergie, haha. C’est super.