Dodari, traducteur IA coréen-anglais / anglais-coréen
(github.com/vEduardovich)Il est possible d’effectuer sans restriction une traduction IA coréen-anglais et anglais-coréen sur son propre ordinateur.
- La qualité est supérieure à celle de la traduction automatique classique.
- La traduction de fichiers
txtetepubest possible. - La sortie se fait sous forme de deux fichiers : un fichier contenant le texte original avec sa traduction, et un fichier ne contenant que la traduction. Si la traduction semble étrange, il est possible de la comparer immédiatement avec l’original.
- L’utilisation est très simple. Il suffit de faire glisser les fichiers à traduire puis de cliquer sur le bouton d’exécution de la traduction. L’outil se charge automatiquement de traduire du coréen vers l’anglais ou inversement.
- Il est possible de remplacer le modèle IA par un autre. Actuellement, il utilise NHNDQ pour son bon rapport coût-performance.
14 commentaires
Bonjour, en fait j’ai fermé le
cmdpendant l’installation, et depuis, même si je supprime le dossier et que je réinstalle, l’installation ne se lance plus… Y a-t-il une solution ?T_TBien sûr. Il faut régler ça.
Mais d’abord, il faut comprendre précisément ce qui ne fonctionne pas.
https://github.com/vEduardovich/dodari/issues
Sur le dépôt GitHub de Dodari ci-dessus, cliquez sur le bouton New issue pour créer un nouvel issue, puis
pourriez-vous décrire un peu plus en détail ce qui ne fonctionne pas, avec une capture d’écran ou des explications sur la situation ?
Nous résoudrons cela à coup sûr.
Waouh, c’est impressionnant.
J’utilise DeepL de mon côté, mais je vais prendre le temps de comparer et de vérifier tranquillement.
J’ai particulièrement hâte de comparer des textes de littérature anglaise.
C’est précisément le point que vous avez évoqué qui me semble actuellement le plus regrettable.
Le modèle actuellement utilisé par Dodari est le modèle NHNDQ, une version fine-tunée pour le coréen de
facebook-nllb, un modèle de traduction multilingue couvrant 200 langues. Mais même s’il est meilleur que Google Traduction, il reste nettement en dessous de DeepL.En testant plusieurs modèles pour résoudre ce problème, j’ai essayé le modèle
yanolja-eeve, considéré comme le top tier pour le coréen, et j’ai été surpris par sa qualité. À mon ressenti, il atteint environ 80 à 90 % du niveau de DeepL.Cependant, pour utiliser ce modèle, il faut que l’ordinateur de l’utilisateur dispose de plus de 23 Go de VRAM. En plus, la vitesse de traduction est plusieurs dizaines de fois plus lente, donc il faut appliquer la technologie
vllmpour l’accélérer. Dans ce cas, la vitesse s’améliore nettement, mais un OS Linux devient indispensable. Autrement dit, seuls les développeurs qui utilisent une 4090 et un OS Linux peuvent faire tourner le modèle Yanolja.C’est le point sur lequel je réfléchis en ce moment. C’est regrettable.
Besoin de plus d'explications ?
Le modèle parent de NHNDQ est
facebook-nllb, un modèle de traduction multilingue couvrant 200 langues.Du coup, il lui arrive parfois de produire ce genre de langage extraterrestre.
Comme la qualité de la traduction en coréen semblait encore légèrement en retrait, j’ai eu l’impression que le produit avait été nommé d’après le pseudonyme
Dodeoridu protagoniste de l’affaire Freagate, si bien qu’il m’était impossible de ne pas mentionner la légendaire erreur d’utilisation d’un traducteur issue de cette affaire, « 必要韓紙 ».Faut-il vraiment en avoir besoin ? Quelle histoire si triste...
On dirait qu’il s’est passé quelque chose de compliqué. Même en lisant, je n’arrive pas bien à comprendre, snif.
Le nom Dodari a été trouvé au cours d’une conversation avec le modèle mixtral-7bx8.
Au début, l’IA a proposé le nom « LanguePont », mais j’avais besoin d’une image claire, facile à dessiner, alors j’ai demandé pour m’amuser ce qu’elle pensait de « Dodari ». Moi-même, je trouvais ça un peu farfelu.
Mais l’IA a répondu que Dodari était très bien, au sens de « pont qui aide ». C’était une interprétation à laquelle je n’avais pas du tout pensé, et je l’ai trouvée originale. C’est ainsi qu’est né le nom Dodari.
C’est une histoire assez ancienne, mais à l’époque elle était plutôt connue dans les communautés internet coréennes.
En gros, on peut la résumer ainsi.
도더리d’un certain café Naver publie une annonce disant qu’il organise un achat groupé d’un CD de musique japonais en édition limitée pour 70 000 wons도더리l’expulse du café, ce qui fait prendre de l’ampleur à l’affaire도더리rend publics en affirmant qu’il s’agit d’échanges avec une entreprise japonaise, des erreurs absurdes d’utilisation d’un traducteur, comme « 必要韓紙 », sont mises au jour, ce qui rend aussi l’affaire célèbre en dehors du cercle initial도더리était quelqu’un de gravement mythomane : la plupart des faits d’armes qu’il racontait sur internet n’étaient qu’un tissu de vantardise absurde et de mensongesCela dit, il m’est aussi arrivé de voir les grands modèles de langage produire parfois des interprétations totalement inattendues, mais plausibles.
J’ai l’impression qu’on vit désormais avec les machines le même phénomène que dans les conversations avec d’autres personnes, lorsqu’un échange nous fait remarquer un point auquel on n’aurait pas pensé seul.
Incroyable. Mais apparemment, il ne s’est pas fait arrêter.
Personnellement, je trouve que ChatGPT fait un peu trop premier de la classe, donc ce n’est pas très amusant, alors que Mixtral, sans doute parce qu’il n’est pas censuré, rend les conversations vraiment très intéressantes.
D’après le contenu du wiki, il aurait même été poursuivi en justice, puis aurait bénéficié d’indulgence après s’être platement excusé, et l’affaire en serait restée là. Au moment des poursuites, son statut était celui d’agent du service public alternatif.
Pour ma part, vu les performances de mon PC personnel, je n’ai pas encore vraiment essayé d’utiliser directement un LLM en local. Je n’utilise pour l’instant que GPT-4, mais je me dis que je pourrais peut-être prendre un abonnement supplémentaire à Claude-3.
De l’exécution du modèle Hugging Face à la mise en place de
venv, jusqu’à l’implémentation du service web, c’était un exemple complet et très utile. Merci de l’avoir partagé.Je suis très heureux d’avoir pu être utile. C’est moi qui vous remercie davantage.