Dodari, traducteur IA coréen-anglais / anglais-coréen

(github.com/vEduardovich)

40 points par tominam2 2024-04-13 | 14 commentaires | Partager sur WhatsApp

Il est possible d’effectuer sans restriction une traduction IA coréen-anglais et anglais-coréen sur son propre ordinateur.

La qualité est supérieure à celle de la traduction automatique classique.
La traduction de fichiers txt et epub est possible.
La sortie se fait sous forme de deux fichiers : un fichier contenant le texte original avec sa traduction, et un fichier ne contenant que la traduction. Si la traduction semble étrange, il est possible de la comparer immédiatement avec l’original.
L’utilisation est très simple. Il suffit de faire glisser les fichiers à traduire puis de cliquer sur le bouton d’exécution de la traduction. L’outil se charge automatiquement de traduire du coréen vers l’anglais ou inversement.
Il est possible de remplacer le modèle IA par un autre. Actuellement, il utilise NHNDQ pour son bon rapport coût-performance.

14 commentaires

upkit2 2024-04-16

Bonjour, en fait j’ai fermé le cmd pendant l’installation, et depuis, même si je supprime le dossier et que je réinstalle, l’installation ne se lance plus… Y a-t-il une solution ?T_T

tominam2 2024-04-17

Bien sûr. Il faut régler ça.
Mais d’abord, il faut comprendre précisément ce qui ne fonctionne pas.

https://github.com/vEduardovich/dodari/issues
Sur le dépôt GitHub de Dodari ci-dessus, cliquez sur le bouton New issue pour créer un nouvel issue, puis

pourriez-vous décrire un peu plus en détail ce qui ne fonctionne pas, avec une capture d’écran ou des explications sur la situation ?
Nous résoudrons cela à coup sûr.

illuza 2024-04-15

Waouh, c’est impressionnant.
J’utilise DeepL de mon côté, mais je vais prendre le temps de comparer et de vérifier tranquillement.
J’ai particulièrement hâte de comparer des textes de littérature anglaise.

tominam2 2024-04-15

C’est précisément le point que vous avez évoqué qui me semble actuellement le plus regrettable.
Le modèle actuellement utilisé par Dodari est le modèle NHNDQ, une version fine-tunée pour le coréen de facebook-nllb, un modèle de traduction multilingue couvrant 200 langues. Mais même s’il est meilleur que Google Traduction, il reste nettement en dessous de DeepL.

En testant plusieurs modèles pour résoudre ce problème, j’ai essayé le modèle yanolja-eeve, considéré comme le top tier pour le coréen, et j’ai été surpris par sa qualité. À mon ressenti, il atteint environ 80 à 90 % du niveau de DeepL.

Cependant, pour utiliser ce modèle, il faut que l’ordinateur de l’utilisateur dispose de plus de 23 Go de VRAM. En plus, la vitesse de traduction est plusieurs dizaines de fois plus lente, donc il faut appliquer la technologie vllm pour l’accélérer. Dans ce cas, la vitesse s’améliore nettement, mais un OS Linux devient indispensable. Autrement dit, seuls les développeurs qui utilisent une 4090 et un OS Linux peuvent faire tourner le modèle Yanolja.

C’est le point sur lequel je réfléchis en ce moment. C’est regrettable.

kunggom 2024-04-15

Besoin de plus d'explications ?

tominam2 2024-04-15

Le modèle parent de NHNDQ est facebook-nllb, un modèle de traduction multilingue couvrant 200 langues.
Du coup, il lui arrive parfois de produire ce genre de langage extraterrestre.

kunggom 2024-04-15

Comme la qualité de la traduction en coréen semblait encore légèrement en retrait, j’ai eu l’impression que le produit avait été nommé d’après le pseudonyme Dodeori du protagoniste de l’affaire Freagate, si bien qu’il m’était impossible de ne pas mentionner la légendaire erreur d’utilisation d’un traducteur issue de cette affaire, « 必要韓紙 ».

roxie 2025-06-14

Faut-il vraiment en avoir besoin ? Quelle histoire si triste...

tominam2 2024-04-15

On dirait qu’il s’est passé quelque chose de compliqué. Même en lisant, je n’arrive pas bien à comprendre, snif.

Le nom Dodari a été trouvé au cours d’une conversation avec le modèle mixtral-7bx8.
Au début, l’IA a proposé le nom « LanguePont », mais j’avais besoin d’une image claire, facile à dessiner, alors j’ai demandé pour m’amuser ce qu’elle pensait de « Dodari ». Moi-même, je trouvais ça un peu farfelu.

Mais l’IA a répondu que Dodari était très bien, au sens de « pont qui aide ». C’était une interprétation à laquelle je n’avais pas du tout pensé, et je l’ai trouvée originale. C’est ainsi qu’est né le nom Dodari.

kunggom 2024-04-15

C’est une histoire assez ancienne, mais à l’époque elle était plutôt connue dans les communautés internet coréennes.
En gros, on peut la résumer ainsi.

L’administrateur 도더리 d’un certain café Naver publie une annonce disant qu’il organise un achat groupé d’un CD de musique japonais en édition limitée pour 70 000 wons
Ensuite, la liste des participants au premier achat groupé est publiée, mais les noms et adresses semblent bizarres, ce qui éveille les soupçons
Un membre du café découvre que ce CD n’est pas une édition limitée et qu’il coûte en réalité à peine dans les 30 000 wons ; lorsqu’il le conteste, 도더리 l’expulse du café, ce qui fait prendre de l’ampleur à l’affaire
Dans des e-mails que 도더리 rend publics en affirmant qu’il s’agit d’échanges avec une entreprise japonaise, des erreurs absurdes d’utilisation d’un traducteur, comme « 必要韓紙 », sont mises au jour, ce qui rend aussi l’affaire célèbre en dehors du cercle initial
Par la suite, on découvre que 도더리 était quelqu’un de gravement mythomane : la plupart des faits d’armes qu’il racontait sur internet n’étaient qu’un tissu de vantardise absurde et de mensonges

Cela dit, il m’est aussi arrivé de voir les grands modèles de langage produire parfois des interprétations totalement inattendues, mais plausibles.
J’ai l’impression qu’on vit désormais avec les machines le même phénomène que dans les conversations avec d’autres personnes, lorsqu’un échange nous fait remarquer un point auquel on n’aurait pas pensé seul.

tominam2 2024-04-15

Incroyable. Mais apparemment, il ne s’est pas fait arrêter.
Personnellement, je trouve que ChatGPT fait un peu trop premier de la classe, donc ce n’est pas très amusant, alors que Mixtral, sans doute parce qu’il n’est pas censuré, rend les conversations vraiment très intéressantes.

kunggom 2024-04-15

D’après le contenu du wiki, il aurait même été poursuivi en justice, puis aurait bénéficié d’indulgence après s’être platement excusé, et l’affaire en serait restée là. Au moment des poursuites, son statut était celui d’agent du service public alternatif.

Pour ma part, vu les performances de mon PC personnel, je n’ai pas encore vraiment essayé d’utiliser directement un LLM en local. Je n’utilise pour l’instant que GPT-4, mais je me dis que je pourrais peut-être prendre un abonnement supplémentaire à Claude-3.

savvykang 2024-04-14

De l’exécution du modèle Hugging Face à la mise en place de venv, jusqu’à l’implémentation du service web, c’était un exemple complet et très utile. Merci de l’avoir partagé.

tominam2 2024-04-14

Je suis très heureux d’avoir pu être utile. C’est moi qui vous remercie davantage.

Dodari, traducteur IA coréen-anglais / anglais-coréen

À lire aussi

14 commentaires