2 points par GN⁺ 2024-01-08 | 1 commentaires | Partager sur WhatsApp
  • Dans le commit 7e10f3e du dépôt Hugging Face de Phi-2, trois fichiers — LICENSE, NOTICE.md et README.md — ont été modifiés, et l’indication de licence est passée à MIT
  • Le nouveau fichier LICENSE est remplacé par le texte complet de la MIT License, qui autorise largement l’utilisation, la copie, la modification, la distribution, le changement de licence et la vente
  • Plusieurs clauses présentes dans l’ancienne Microsoft Research License ont été supprimées, notamment l’interdiction de rétro-ingénierie, les restrictions sur l’hébergement indépendant, le traitement des données personnelles, l’arbitrage et les limitations de responsabilité
  • Les métadonnées du README utilisent license: mit au lieu de license_name: microsoft-research-license, tout en conservant l’ancien lien vers LICENSE
  • Le nouveau NOTICE.md signale flash-attention comme composant tiers et inclut la BSD 3-Clause License, ainsi qu’une formulation autorisant une rétro-ingénierie limitée à des fins de débogage de modifications de bibliothèques LGPL

Fichiers modifiés dans le commit

  • Le commit du dépôt microsoft/phi-2 sur Hugging Face est affiché comme “Upload 3 files”, et les fichiers concernés sont LICENSE, NOTICE.md et README.md
  • La page Browse files permet de voir la liste des fichiers à l’état de ce commit

LICENSE : remplacement de la Microsoft Research License par la MIT License

  • Le fichier LICENSE voit l’ancien texte de licence supprimé et remplacé par le texte complet de la MIT License
  • Le nouveau LICENSE inclut la MIT License après les mentions PhyAGI. et Copyright (c) Microsoft Corporation.
  • La MIT License accorde gratuitement à toute personne obtenant une copie du logiciel et des fichiers de documentation associés les droits suivants :
    • utilisation, copie, modification, fusion
    • publication, distribution, changement de licence
    • vente de copies du logiciel
    • octroi des mêmes droits aux personnes auxquelles le logiciel est fourni
  • La condition est d’inclure l’avis de copyright et l’avis d’autorisation dans toutes les copies ou parties substantielles du logiciel
  • L’exclusion de garantie est incluse sous la forme AS IS et ne fournit aucune garantie expresse ou implicite, y compris de qualité marchande, d’adéquation à un usage particulier ou de non-contrefaçon
  • Les titulaires du copyright et des droits ne sont pas responsables des réclamations, dommages ou responsabilités découlant de l’utilisation du logiciel ou d’autres transactions

Anciennes clauses restrictives supprimées

  • Plusieurs restrictions et clauses juridiques ont été retirées de l’ancien LICENSE
  • Les clauses supprimées incluaient notamment :
    • l’interdiction de la rétro-ingénierie, de la décompilation et du désassemblage des éléments fournis
    • l’interdiction de supprimer, réduire, bloquer ou modifier les avis de Microsoft ou de ses fournisseurs
    • l’interdiction d’une utilisation contraire à la loi ou à des fins de création ou de diffusion de logiciels malveillants
    • l’interdiction de partager, publier, distribuer ou louer les éléments, de fournir une solution d’hébergement indépendante, ou de les transférer à des tiers
  • Les restrictions liées aux données personnelles disparaissent également
    • les données permettant d’identifier une personne ne devaient pas être utilisées en dehors des finalités approuvées ou consenties
    • elles ne devaient pas être utilisées pour contacter des personnes
    • les données personnelles ainsi que les sauvegardes et copies devaient être détruites immédiatement après la fin de la recherche
  • La clause accordant à Microsoft une large licence lorsque des modifications lui étaient fournies a aussi été supprimée
  • D’autres clauses ont été retirées, portant sur la publication, les retours, les restrictions à l’exportation, les services d’assistance, l’arbitrage aux États-Unis et la renonciation aux actions collectives, la loi applicable, les droits des consommateurs, les exclusions de garantie et les limitations de dommages-intérêts

Changement des métadonnées du README

  • Dans le front matter de README.md, l’indication de licence a été modifiée
  • Les éléments supprimés sont :
    • license:
    • license_name: microsoft-research-license
  • Le nouvel élément est license: mit
  • license_link: https://huggingface.co/microsoft/phi-2/resolve/main/LICENSE est conservé
  • Les éléments inference: false et language: - en sont conservés dans le diff affiché

NOTICE.md et avis sur les composants tiers

  • Le nouveau fichier NOTICE.md commence par les formulations “NOTICES AND INFORMATION” et “Do Not Translate or Localize”
  • Microsoft indique que ce logiciel inclut des éléments tiers
  • Une partie du code open source de Microsoft est disponible sur https://3rdpartysource.microsoft.com, ou peut être demandée en envoyant un chèque ou mandat postal de 5,00 USD avec le nom du produit, le nom du composant open source, la plateforme et le numéro de version
  • Indépendamment des autres conditions, ce logiciel peut faire l’objet de rétro-ingénierie dans la mesure nécessaire au débogage de modifications apportées à des bibliothèques sous GNU Lesser General Public License
  • flash-attention est inclus comme composant
  • L’avis relatif à flash-attention inclut la BSD 3-Clause License
    • en cas de redistribution du code source, l’avis de copyright, la liste des conditions et la clause de non-responsabilité doivent être conservés
    • en cas de redistribution binaire, les mêmes avis, conditions et clauses de non-responsabilité doivent être inclus dans la documentation ou les autres supports
    • sans autorisation écrite préalable, le nom des titulaires du copyright ou des contributeurs ne peut pas être utilisé pour promouvoir des produits dérivés
  • L’avis BSD 3-Clause précise que ce logiciel est lui aussi fourni “AS IS” et décline toute responsabilité pour les dommages directs, indirects, accessoires, spéciaux, exemplaires ou consécutifs

1 commentaires

 
GN⁺ 2024-01-08
Avis sur Hacker News
  • C’est vraiment enthousiasmant de voir apparaître de tels modèles ouverts.
    Ce qui est intéressant, c’est que les « éthiciens » de l’IA semblent vouloir se comporter comme une caste de grands prêtres qui contrôle l’accès aux modèles de machine learning au nom de la sécurité. Mais, à mon avis, le plus grand risque de l’IA réside dans le fait que les personnes qui contrôlent les modèles puissent contrôler et censurer ce que les gens ont le droit d’écrire avec eux.
    Je pense que les modèles open source entre les mains du public sont la meilleure défense contre les vrais risques de l’IA, et j’applaudis Facebook, Microsoft et Mistral qui poussent dans ce sens.

    • Voir les « éthiciens » de l’IA ainsi est une interprétation vraiment malveillante.
      Il vaudrait mieux lire les arguments réels plutôt que des résumés sur les réseaux sociaux. Le débat est bien plus profond qu’on ne le pense, les risques qui vous inquiètent y sont aussi largement traités, et des solutions ont été proposées. Ces solutions ont plus de chances de réellement fonctionner que l’affirmation selon laquelle ce serait la « meilleure défense ».
    • Décrire « tous » les éthiciens de l’IA comme une caste de prêtres voulant empêcher l’accès aux modèles me semble nuisible.
      Beaucoup de gens accordent de l’importance à la fois à la démocratisation de ces outils et à leur usage sûr et éthique.
    • À ce stade, je pense que le chat est déjà sorti du sac.
      Espérer que des personnes mal intentionnées respectent les termes d’une licence n’a jamais été un très bon moyen de contrôle. Cela ne fait que freiner les progrès et l’innovation des personnes suffisamment de bonne foi pour respecter la loi ; les acteurs aux intentions différentes en Russie, en Corée du Nord, en Chine, ainsi que les organisations criminelles et les escrocs, ne sont pas liés par ce genre de principes.
      Une communauté travaillant sous de véritables licences open source se développe, et des choses intéressantes se produisent de plus en plus vite. Les licences alternatives sont peu efficaces, coupent les liens avec cette communauté, compliquent la collaboration et deviennent une part de plus en plus minoritaire de la recherche globale. Elles deviennent donc de plus en plus dénuées de sens.
      Corriger cela rend la situation simple et standard d’un point de vue juridique, ce qui facilite la commercialisation, la collaboration et la recherche. Microsoft semble reconnaître de manière rationnelle qu’il y a de la valeur là-dedans et s’adapter à la réalité.
    • Qui peut garantir que le véritable objectif caché de ces investissements délirants dans l’IA n’est pas de construire une infrastructure de censure à grande échelle ?
    • Partout où de la valeur s’accumule, une industrie de bernacles apparaît : si vous ne payez pas un tribut à une armée de gens qui ne contribuent pas, ils posent le pied sur la pédale de frein.
  • Avant, c’était sous licence non commerciale, ce qui avait un peu refroidi les attentes.
    Vu ses performances et sa taille, le passage à une licence favorable à un usage commercial est un événement assez important.

  • Ce qui compte avec ce modèle, c’est qu’il possède de solides capacités de raisonnement.
    En revanche, il n’a volontairement pas été entraîné sur de grands jeux de données issus du crawl web, afin d’éviter qu’il apprenne comment fabriquer des bombes ou faire de « mauvaises choses ».
    Ainsi, comparé à des modèles de même catégorie, voire à des modèles avec davantage de paramètres, c’est celui qui « réfléchit le plus intelligemment », mais il dispose relativement de moins de connaissances sur le monde ou de culture générale.
    Cela pourrait changer à l’avenir, mais c’est son état actuel selon moi.

    • Il reste excellent pour les applications RAG.
      Parce que je veux que les réponses soient fondées sur les données que je fournis, et non sur ce qu’il a appris sur le web.
    • Si l’on voit un grand modèle de langage comme possédant deux attributs — la capacité à utiliser le langage naturel et les connaissances nécessaires pour répondre aux questions —, alors les petits modèles de langage peuvent être considérés comme d’excellents modèles de traitement du langage naturel.
      Beaucoup de tâches ne nécessitent pas de connaissances générales, et c’est particulièrement avantageux dans le RAG.
    • J’aimerais que l’objectif des modèles ne soit pas d’embarquer les données.
      Il vaut mieux fournir les données par recherche, ce qui réduit les réponses « apparemment intelligentes mais complètement fausses ».
      Avec moins de données intégrées, le modèle peut aussi être utilisé de manière plus générale en dehors du domaine des assistants conversationnels. Souvent, on veut que le modèle ne connaisse que les données fournies par l’utilisateur.
      Par exemple, dans un jeu de fantasy médiévale, ce serait très étrange qu’un personnage se mette soudainement à parler de politique américaine. Phi-2 ne résout pas totalement ce problème sans fine-tuning, mais l’idée va dans ce sens.
    • À mon avis, le fait de ne pas l’avoir entraîné sur des données issues du crawl web vise à rendre moins évidente la façon dont Microsoft vole des biens et des données personnelles pour les monétiser.
  • Ce qui m’intéresse davantage que le modèle, c’est le jeu de données.

  • C’est une excellente évolution, et cela montre aussi pourquoi les projets open source indépendants sont importants.
    Il est difficile de croire que la publication de TinyLlama sous licence Apache 2.0 n’ait pas influencé ce changement.

    • Sur quoi vous fondez-vous pour dire que la publication de TinyLlama a eu une influence ?
  • Cela ressemble à un signal indiquant que Phi-3 et les modèles de prochaine génération vont rendre Phi-2 obsolète.

  • Ce modèle est resté assez longtemps dans le haut du classement ; qu’a-t-il de si bon ?

    • Ses performances sont excellentes compte tenu de sa taille et de son coût d’inférence.
      C’est le meilleur modèle capable de tourner même sur de petits appareils comme des téléphones, tout en offrant des performances proches de GPT-3.5.
      Son architecture et ses données d’entraînement sont également intéressantes. C’est un modèle clairsemé utilisant des données synthétiques sélectionnées, ce qui lui permet d’atteindre une précision bien supérieure à celle de modèles entraînés sur du texte Internet aléatoire.