Les soumissions générées par des LLM devraient être interdites

(lobste.rs)

1 points par GN⁺ 3 시간 전 | 1 commentaires | Partager sur WhatsApp

Il y a beaucoup de discussions sur la manière de traiter les textes générés par des LLM lorsqu’ils sont publiés sur le site, mais il ne semble pas exister de politique claire définissant s’ils sont autorisés ou non
La position défendue est que les utilisateurs qui publient régulièrement des textes générés par des LLM devraient être bannis du site
Il est proposé d’afficher sur la page de soumission un avertissement indiquant : « Les textes générés par des LLM ne sont pas autorisés ici »
Une politique claire et cet avertissement pourraient réduire les débats sur le fait de signaler ces textes ou d’y répondre en commentaire
L’idée essentielle est d’établir une règle explicite selon laquelle les soumissions générées par des LLM ne sont pas autorisées, afin de simplifier la réponse de la communauté

1 commentaires

GN⁺ 3 시간 전

Avis sur Lobste.rs

Même si quelques textes de mauvaise qualité passent de temps en temps, ça me paraît acceptable. Avoir une règle explicite d’interdiction des contenus générés par LLM permettrait idéalement, sans exceptions sujettes à dispute dans les commentaires, de réduire les publications médiocres en première page et de disposer d’une base claire pour bannir les récidivistes.
Globalement d’accord. Si quelqu’un n’a même pas pris la peine d’écrire lui-même, je n’ai pas envie de le lire.
Cela dit, je ne sais pas comment identifier parfaitement une phrase générée par LLM, et je n’aime pas l’idée qu’une personne ou une source soit bannie seulement parce que son texte pourrait avoir été généré. Il m’est déjà arrivé qu’on soupçonne l’usage d’un LLM juste parce que j’utilise parfois un tiret cadratin, alors que c’est mon style depuis plus de 25 ans.
- Quelques faux positifs occasionnels ne me semblent pas être un gros problème tant qu’on n’est pas dans une politique de tolérance zéro. Je comprends la proposition comme laissant à la modération le soin de traiter des schémas répétés de publications de mauvaise qualité.
  Il ne faut pas renoncer à une politique simplement parce que la détection des textes médiocres n’est pas parfaite. Il y aura parfois des erreurs, mais il faut absolument opposer une contre-pression à ce flot de déchets générés par LLM qui recouvre le web et évince les textes écrits par des humains.
D’accord.
En général, il est assez évident qu’un texte est généré par LLM, et il m’est arrivé de voir des auteurs mentionner ailleurs sur leur site qu’ils utilisaient un LLM, même si ce n’était pas indiqué dans l’article lui-même. Dans ce cas, c’est encore plus simple à juger.
L’intuition de la communauté pour repérer les contenus de mauvaise qualité me semble aussi assez fiable. Je ne me souviens pas d’un grand fil de commentaires où l’on aurait accusé à tort un auteur d’avoir utilisé un LLM alors que ce n’était pas le cas. Si personne ne peut faire la différence, alors personne ne peut la faire.
Dans les cas vraiment ambigus, on peut très bien partir du principe de la bonne foi. Ce qui pose problème, ce sont surtout les textes tellement évidents qu’ils sautent aux yeux, pas une situation où quelqu’un essaierait de tromper lobste.rs en y glissant le plus possible de textes générés sans que personne ne s’en aperçoive.
Je déteste vraiment les articles générés par LLM et j’aimerais qu’ils disparaissent. Ces cas extrêmes sont clairs et probablement faciles à identifier, et je pense que très peu de gens seraient opposés à leur suppression.
Mais que faire si quelqu’un soumet un logiciel qui intègre en partie des commits générés par LLM ? Ou s’il a tout construit avec un LLM, mais a documenté le processus dans un billet d’analyse ? Ces objections relèvent un peu de l’avocat du diable, mais il est clair qu’il existe aussi, sur lobste.rs, tout un spectre de ce qui est considéré comme acceptable.
Interdire tout contenu ayant été touché, même un peu, par un LLM me paraît difficile à faire accepter. La réponse la plus consensuelle serait probablement un signalement sans pénalité de karma. Une sorte d’avertissement disant : « selon moi, c’est généré », laissé à l’attention des personnes qui viendront ensuite. Les grands fils de commentaires jouent déjà de fait ce rôle, et on pourrait ainsi réduire les disputes tout en gardant un signal sur la visibilité du contenu.
- Les autres scénarios que vous évoquez relèvent d’une autre catégorie, et la distinction est assez claire. Si vous voulez qu’ils soient traités différemment, vous pouvez ouvrir un nouveau fil.
Ça me semble raisonnable. Si quelqu’un ne prend pas le temps de mettre ses idées en ordre, je ne vois pas pourquoi je devrais prendre le temps de le lire.
Utiliser un chatbot comme canard en plastique pour formuler un argument ou vérifier la grammaire, ça me va. Je ne pense même pas qu’une détection particulière soit nécessaire : les attentes de la communauté et la suppression des cas évidents suffisent.
Il est très facile de crier immédiatement « texte LLM de mauvaise qualité ! » dès qu’un article ne plaît pas. Et ensuite ? Je veux voir des textes en lien avec le sujet, qu’ils correspondent ou non à mes opinions, et c’est sain ainsi.
Je ne suis pas certain de la manière dont il faut évaluer ce qui est « de mauvaise qualité ». Il y a des cas évidents, mais aussi des cas ambigus. Il est possible qu’un texte légitime paraisse médiocre simplement parce que son auteur emploie par hasard un style que les LLM imitent souvent.
Sur les soumissions de type « authored by », examiner la négligence générale du soumetteur peut être équitable. Si quelqu’un poste régulièrement des textes manifestement médiocres, on peut considérer qu’il est négligent, puis la modération peut lui demander d’arrêter, et s’il continue, le bannir.
Je ne sais pas s’il faut appliquer exactement la même logique aux « mauvais textes » soumis via quelqu’un d’autre. Pour les personnes qui soumettent régulièrement des textes dont la qualité semble faible, on pourrait peut-être au moins refroidir temporairement leur capacité à publier, plutôt que les bannir. Mais un système où chaque soumetteur risquerait le bannissement s’il ne peut pas défendre la source d’un texte ne serait pas agréable.
- Toutes les règles ne sont pas une pente glissante. Il existe réellement des textes LLM manifestement médiocres, et cela suffit déjà à justifier une modération.
  Vous semblez sous-estimer à quel point la production de textes LLM de mauvaise qualité est antisociale. Même aujourd’hui, ce genre de cas flagrants reste plusieurs jours en première page parce que des gens portés par la vague IA les soumettent.
- Il suffit de combattre le feu par le feu avec un détecteur de textes LLM de mauvaise qualité.
Article connexe : https://lobste.rs/s/wee21u/this_is_written_by_llm_comments_should_be
Exemples :
https://lobste.rs/s/ojvhq9/coding_is_thinking_why_i_still_write_code
https://lobste.rs/s/eaxtmb/claude_for_legal_suite_plugins_for_legal
https://lobste.rs/s/fvqkke/new_claude_code_programmatic_usage
Je suis d’accord sur le fait que le texte généré par LLM devrait pouvoir être filtré ou signalé.
Le problème, c’est que lorsqu’un texte généré par LLM est malgré tout dans le thème, l’étiqueter comme « hors sujet » devient contradictoire. On a déjà discuté par le passé d’une nouvelle option de signalement. Par exemple : https://lobste.rs/s/po97lh/new_tag_suggestion_genai_assisted
Je continue de penser qu’une nouvelle option de signalement vaut mieux que l’abus du signalement « hors sujet », comme discuté ici : https://lobste.rs/s/rkjpob/proposal_add_ai_generated_as_flag_reason
- Je prends le retour. La formulation était mauvaise. Ça devrait être interdit.
  Le fait que ce soit filtrable ou signalable ne me paraît pas très important. Les utilisateurs qui publient cela devraient être exclus du site. Les signalements ou tags sont du gaspillage s’ils ne débouchent pas sur une vraie mesure.
J’ai l’impression qu’on ne retient que des exemples sans valeur, mais dans https://lobste.rs/s/hfnps5/osmand_s_faster_offline_navigation, le texte généré par LLM est globalement de qualité médiocre tout en contenant quand même un contenu original pertinent pour le sujet.
- Non. Je veux dire que, dans la mesure du possible, aucun texte généré par LLM ne devrait être publié. Il suffit de regarder les gens qui l’ont signalé comme spam. Si je l’avais vu, j’aurais fait partie du lot.
Désormais, toutes les formes de tirets sont illégales.
- Je ne comprends pas pourquoi les gens considèrent le tiret cadratin comme une preuve décisive. Par exemple, la sortie HTML de Pandoc génère un tiret cadratin à partir de -- en Markdown.
Préoccupation : il n’est pas facile de savoir avec une exactitude parfaite si un texte est généré par LLM. Mais dans la plupart des cas, c’est évident.
Il peut arriver qu’un texte généré par LLM soit malgré tout, d’une manière ou d’une autre, « important » ou « digne d’attention ». On peut penser par exemple au rapport CopyFail.
Proposition : les contenus générés par LLM devraient être interdits, sauf dans des situations exceptionnelles comme une faille de sécurité majeure. Lorsqu’on évalue si un texte est généré par LLM, il faut rester prudent et accorder le bénéfice du doute aux cas limites. Les « situations exceptionnelles » pourraient relever du pouvoir d’appréciation de la modération, ou être définies plus précisément au fil de l’évolution de la politique et d’améliorations itératives.

Les soumissions générées par des LLM devraient être interdites

À lire aussi

1 commentaires

Avis sur Lobste.rs