Des réponses IA plus rapides et de meilleure qualité pour tous, Phind-405B

(phind.com)

1 points par GN⁺ 2024-09-06 | 1 commentaires | Partager sur WhatsApp

There is no content to summarize from the provided article link.

1 commentaires

GN⁺ 2024-09-06

Avis sur Hacker News

Phind reste mon moteur de recherche augmenté par l’IA préféré
Il répond bien aux questions techniques, tout en ajoutant des liens de référence pour vérifier la réponse ou aller plus loin
Parmi les exemples récents dans mon historique : les formats vidéo pris en charge par Mastodon https://www.phind.com/search?cache=jpa8gv7lv54orvpu2c7j1b5j, une comparaison entre XFS et ext4fs https://www.phind.com/search?cache=h9rmhe6ddav1bnb2odtchdb1, l’approche « no slot clock » de l’Apple ][ https://www.phind.com/search?cache=w4cc1saw6nsqxyige7g3wple, etc.
Les réponses ne sont pas parfaites, mais elles donnent une bonne vue d’ensemble, et les liens vers les sources web sont excellents. ChatGPT et Claude sont faibles sur ce point, et Bing CoPilot y arrive dans une certaine mesure, mais me plaît moins
- Dans mes tests, Phind 70B produisait aussi des réponses hallucinées
  Par exemple, je lui ai demandé des bouchons d’oreille Bluetooth dont la batterie pouvait être remplacée facilement, et il a continué à me recommander des produits dont je savais que la batterie était soudée au boîtier. Pour être juste, Perplexity a aussi échoué sur cette question
- Nous pensons qu’il reste encore beaucoup de marge de progression, et nous travaillons à améliorer la structure des réponses et leur vérifiabilité
- Phind était l’outil que j’utilisais surtout pour obtenir des informations plus pertinentes et plus récentes trouvables sur Internet, mais ce n’est plus le cas depuis environ trois mois
  Au fil du temps, sur de nombreuses questions, les réponses sont devenues de plus en plus incomplètes ou fausses, et, pire encore, il arrivait qu’il dise ne pas trouver la réponse alors qu’elle se trouvait dans les sites cités en référence
  Au final, je suis surtout revenu à Bing et à gpt 4o, et honnêtement j’hésite à consacrer du temps à réessayer la nouvelle version
- Ici, je vois les références, mais quand je pose une question, même connecté, je n’obtiens que la réponse, sans citations
  C’était déjà un problème auparavant, et je pensais qu’il avait été corrigé, mais je le rencontre encore. Si je pose la question déconnecté, les références apparaissent, mais la réponse utilise alors le modèle instant
- Pour des raisons similaires, j’aime beaucoup utiliser Brave Search
  On peut facilement passer de la recherche classique à la recherche basée sur un LLM selon ce qui est le plus adapté
Je viens d’essayer : je lui ai posé une question sur un sujet de recherche sur lequel je travaille, et il m’a donné une réponse, mais sans références bibliographiques
J’ai donc copié la réponse et demandé précisément d’ajouter des références, et il s’est excusé en disant en gros que le fait de mentionner une étude spécifique dans sa réponse précédente était une erreur, et que les résultats de recherche ne contenaient aucune information pertinente étayant cette affirmation
Je ne sais pas trop quoi en penser
- J’ai poursuivi les tests : quand je lui ai demandé d’expliquer brièvement l’utilisation des Laravel 11 Blade fragments, il a plutôt bien répondu
  Ensuite, je lui ai donné trois lignes de code de route utilisées dans Laravel, et je lui ai demandé comment l’implémenter pour déterminer le fragment à renvoyer à partir d’un paramètre d’URL
```
Route::get('/vge-frags/{fragment}', function ($fragment) {  
return view('vge-fragments');  
});  
```
  Dire qu’il fallait que la bonne view existe était un bon point de départ, mais il a ensuite recommandé ceci
```
Route::get('/vge-frags/{fragment}', function ($fragment) {  
return fragment($fragment);  
});  
```
  J’ai tout de suite vu que c’était faux, mais quelqu’un qui apprend pourrait ne pas le savoir. J’ai donc dû redemander : « Attends, comment ce code sait-il quelle view utiliser ? », et ce n’est qu’alors qu’il a donné la bonne réponse
```
Route::get('/vge-frags/{fragment}', function ($fragment) {  
return view('vge-fragments')->fragment($fragment);  
});  
```
  Il est trop facile de trouver des cas limites avec ces modèles, et il faut en pratique douter de presque toutes les réponses reçues. Cela dit, ils peuvent parfois être très puissants et utiles
- Il serait bon de vérifier d’abord que Always search est activé, puis de réessayer la première question
  Tu devrais alors obtenir une réponse correcte avec des références
- Je déteste vraiment les formulations du genre « En tant qu’assistant IA, j’aurais dû être plus prudent »
- Cette longue excuse, franchement, revient juste à dire de façon verbeuse et répétitive : « j’ai dit n’importe quoi »
  Bien sûr, il y a aussi des humains qui parlent comme ça. S’il y a un aspect positif à la frénésie autour des LLM, c’est peut-être qu’elle nous rendra immunisés contre ce genre de discours de psychopathe
Est-il vrai de dire que « le principal problème de la recherche basée sur l’IA est qu’elle est trop lente par rapport au Google existant. Même si elle génère de meilleures réponses, la latence supplémentaire rebute » ?
Les plaintes que je ressens et que j’entends portent surtout sur des résultats IA inexacts, par exemple des erreurs où l’outil se trompe avec assurance quand il aide à coder.
- C’est évidemment plus lent entre le moment où l’on appuie sur Entrée et celui où quelque chose apparaît.
  Mais l’objectif à mesurer ne devrait-il pas être le temps entre l’appui sur Entrée et le moment où un ensemble de bonnes réponses pertinentes arrive dans notre tête ? À cette aune, la méthode vieille de 20 ans semble avoir atteint son pic il y a plus de 10 ans, sinon Phind n’aurait pas suscité d’intérêt.
  Avec la recherche façon PageRank vieille de 20 ans, le temps entre la recherche et le moment où la bonne réponse arrive en tête devient désormais proche du « DNF », c’est-à-dire d’un échec à terminer.
  Qu’il s’agisse d’hallucinations ou de résultats sans rapport, il faut dans les deux cas réfléchir pour les filtrer. En proportion, il y a davantage de résultats non pertinents que d’hallucinations ; c’est juste que nous avons renoncé depuis longtemps à faire confiance aux pages de résultats de recherche.
- C’est un problème de triangle vitesse / précision / coût.
  Les petits modèles sont efficaces en coût de serving et rapides, mais peuvent se tromper une fois sur deux.
  Les grands modèles tournent lentement sur du matériel bon marché, mais peuvent donner des réponses plus exactes, et sont généralement assez rapides pour un usage individuel.
  La troisième option, ce sont des modèles grands, rapides et précis, mais il faut payer assez cher Nvidia/Groq, entre autres, pour obtenir cette vitesse, et peut-être même construire des centrales solaires pour absorber le coût de l’électricité.
- D’après mon expérience, c’est vrai.
  Avant de chercher quelque chose, j’essaie souvent d’estimer s’il sera plus rapide de parcourir rapidement les résultats Google, ou d’attendre que Perplexity Pro recrache lentement une réponse ligne par ligne.
- À mon avis, les deux sont des problèmes centraux.
  Quand les résultats sont exacts, c’est trop lent, et les résultats qui arrivent sont souvent inexacts, donc difficiles à croire.
Ce n’est pas pour tout le monde comme le titre le dit, mais pour les utilisateurs Pro.
Le titre prête à confusion, ce serait bien de le changer.
Je me demande comment cela se compare à Kagi Assistant.
La page des tarifs indique, pour 20 $ par mois, des recherches illimitées avec Phind-405B et Phind-70B, plus de 500 requêtes GPT-4o par jour, plus de 500 requêtes Claude 3.5 Sonnet par jour, et 10 requêtes Claude Opus.
Ils disent que « Phind-405B atteint 92 % sur HumanEval 0-shot, au niveau de Claude 3.5 Sonnet » ; y a-t-il d’autres benchmarks ?
- J’ai payé Phind pendant 6 mois, et aujourd’hui je suis plus satisfait de Kagi Assistant.
  Il ne fournit pas autant de liens, mais le résultat global est similaire ou meilleur, et on peut aussi utiliser les lenses. Un moteur de recherche généraliste est également fourni.
  Il y avait un point agaçant dans l’UI de Phind : dans Firefox, la barre de défilement sautait parfois de manière aléatoire, je crois à chaque saisie ou même pendant la génération des tokens. Si l’on doit retrouver à chaque fois l’endroit où l’on était en train de lire, on perd pas mal de temps, et le simple fait de devoir revenir tout en bas est aussi pénible.
  Le problème central reste que, dans les deux cas, il y a trop d’hallucinations sur les questions difficiles, et c’est un problème commun partout.
- Il existe une extension VSCode, donc si vous l’utilisez, cela a un certain intérêt.
  Pour un usage purement recherche, je ne sais pas trop. D’après mon expérience, Phind n’était pas exceptionnel avec l’accès à Internet, et certaines personnes désactivent même la fonction de recherche pour obtenir de meilleures réponses.
- Le chiffre de 92 % rend l’évaluation difficile, car cela signifie qu’il faut des benchmarks plus exigeants.
  En particulier, même les modèles aux scores élevés donnent souvent des réponses plausibles mais pleines d’hallucinations. Par exemple, Llama 3 est bavard et sûr de lui avec moi, mais se trompe assez souvent.
  Avec ce niveau de performance, on semble être entré dans la zone des cas limites difficiles où la bonne réponse elle-même est ambiguë.
- À voir les prix, il ne semble pas y avoir d’abonnement inférieur à « Phind illimité + 500 ChatGPT par jour » à 20 $ par mois.
  Ce qu’il faudrait, ce n’est pas ça, mais une formule à environ 100 requêtes par mois pour 5 $. Si c’est un moteur de recherche centré sur le code, il faut se demander pourquoi les gens devraient payer le même prix que pour des concurrents offrant davantage de fonctionnalités.
Je crois être abonné à Phind Pro depuis environ 5 ou 6 mois.
J’ai l’impression que la pollution des résultats de recherche s’est un peu améliorée, mais il arrive encore que les réponses se dégradent quand on pose des questions de suivi.
Par exemple, si l’on pose une question en faisant référence au code de la réponse juste au-dessus, la réponse suivante se base parfois non pas sur le contexte de la conversation, mais sur du code trouvé dans les résultats de recherche. Je ne connais pas bien le RAG, donc je ne sais pas si cela peut se corriger avec des priorités ou autre.
À part ça, j’attends vraiment de voir comment ils géreront leurs propres artifacts dans l’interface web. L’UI des artifacts de Claude s’intègre très bien à mon flux de travail quand je travaille sur le web, et j’apprécie aussi le fait d’avoir des versions de plusieurs fichiers.
- Nous travaillons sur les artifacts.
  Je serais curieux de savoir sur quels modèles vous observez cette pollution.
Attendez, en fait c’est plutôt bon.
Il faut encore poser des questions de suivi pour obtenir un résultat raisonnable, mais quand je l’avais testé au début de l’année, il échouait complètement sur la plupart de mes requêtes de test.
Ce serait bien de proposer au moins une requête gratuite pour que les utilisateurs puissent évaluer le service.
- Phind Instant, le modèle rapide, est entièrement gratuit.
Phind est le meilleur outil d’amélioration de productivité que j’aie trouvé ces dernières années.
Félicitations, et j’espère que vous continuerez à le développer dans cette voie.
J’ai récemment posé la question ci-dessous à une IA
```
const MyClass& getMyClass(){....}  
auto obj = getMyClass();  
```
Je lui ai demandé si cela ne provoquait pas bien une copie, et elle a répondu avec beaucoup d’assurance qu’il n’y avait pas de copie. Elle pensait que auto déduisait le type comme une référence const, et donc ne copiait pas ; c’est faux, et il faudrait auto& ou const auto& pour cela. Quand je lui ai redemandé si elle en était sûre, elle a répondu avec encore plus d’assurance
La sortie Godbolt est ici : https://godbolt.org/z/Mz8x74vxe
On peut voir que "copy" est affiché, et qu’il est aussi possible d’appeler une méthode non-const sur l’objet copié, ce qui signifie que le type est non-const
J’ai posé exactement la même question à Phind, qui a donné la même réponse : https://www.phind.com/search?cache=k3l4g010kuichh9rp4dl9ikb
Comment deux IA différentes, dont l’une se présente comme spécialisée dans le code, peuvent-elles échouer avec autant d’assurance ?
- Cela montre que ces outils restent au fond des machines à générer des tokens, et que leur sortie n’est qu’une simulation d’intelligence
  On n’en est visiblement pas encore au stade où l’on peut leur faire confiance aveuglément
- L’une des vieilles astuces pour obtenir de meilleures réponses d’un LLM est de lui demander : « réfléchissons étape par étape »
  J’ai posé la question ci-dessous à Claude de cette manière
```
const MyClass& getMyClass(){....}  
auto obj = getMyClass();  
```
  « Est-ce que cela crée une copie ? Réfléchissons étape par étape. »
  Si vous comptez utiliser plus souvent ce genre d’outil pour vous aider, cela peut être utile

Des réponses IA plus rapides et de meilleure qualité pour tous, Phind-405B

À lire aussi

1 commentaires

Avis sur Hacker News