Travail du groupe

De Movilab.org

__Classer les données : Entrée / Sortie. Question de la pertinence, quelles data, comment ?__



Qui gère quoi ?

La base de la réflexion : [[1]]* Ressources : [[2]]

Groupe Florent, Ugo, Thuthru :

QUOI ? Faire des classes de données


Classement des données aussi bien sur ce qu'elle désire publier que sur ce qu'elle désire récupérer (cf pdf d'Ugo) L'étude de la pertinence des données Pour quel public ? La restriction d'accès à certaines données Trier par les avantages que l'on aurait à publier tel ou tel type de données Utilisation de licenses ? ODbl : [[3]] [[4]]


Un gros travail de mutualisation des connaissances juridique a été fait afin de trouver des licences qui soient équitables pour le plus grand nombre : les licences GPL ou BSD sont des exemples notables de ce travail de mutualisation.

Wikipédia ou OpenStreetMap sont deux projets emblématiques de cet engouement citoyen. Comme dans le Logiciel Libre, ils autorisent l’utilisation commerciale de leurs travaux. Les sceptiques avaient prédit une exploitation commerciale généralisée de ces travaux, mais force est de constater qu’il n’en est rien. Les licences qu’ils ont choisies (CC-By-Sa pour le premier, bientôt ODBL pour le second) garantissent un juste équilibre : si une entreprise cherche à s’enrichir injustement à partir de leur travail, les sources étant accessibles à tous, une alternative économiquement raisonnable apparait. Le fait que ces licences permettent une utilisation commerciale est au contraire source d’innovation. Des éditeurs peuvent proposer des livres ou des applications mobiles à partir de ces travaux. Le service apporté valorise ainsi le travail réalisé dans ces projets. Souvent, une partie du bénéfice réalisé est même reversé pour contribuer à ces projets et en pérenniser le travail.

associer la réutilisation des données à des conditions de non réutilisation commerciale pose des problèmes juridiques importants. Avoir recours à la publicité pour financer les frais d’hébergement d’un service à but non lucratif représente-t-il une activité commerciale ? Utiliser des données publiques pour générer du trafic et ainsi offrir plus de visibilité à ses activités commerciales peut-il être considéré comme une activité non-commerciale ? Pour les plus petits utilisateurs, les clauses NC seront souvent un frein à l’adoption des jeux de données proposés. Ce serait donc instaurer une discrimination aux usages. Lorsque des administrations optent pour des licences interdisant les usages commerciaux, elles font donc le choix de se couper de ces projets emblématiques. Elle ne se donnent pas la chance de profiter de la visibilité offertes par ces sites (150 millions de visiteurs uniques pour Wikipédia). C’est d’autant plus dommageable que le travail effectué par ces communautés pourrait constituer un atout majeur pour les données publiques.

Se pose simplement, pour les administrations voulant franchir le pas, la question de savoir sous quel type de licence rendre public leurs données. Deux choix s’offrent à elles :

    • Utiliser des licences offrant le maximum de libertés aux ré-utilisateurs**. Dans ce cas, les institutions publiques demandent juste le respect de la loi : citer la source et la date des données sans en altérer le sens. Ce choix est celui qui permettra sans doute le plus de ré-utilisation : les problèmes de compatibilité entre jeux de données sont levés et il est possible de les mélanger avec des données privées non-diffusables. C’est le choix qui a été fait par la majorité des institutions publiques anglo-saxonnes en adoptant des licences proches de la CC-by, CC-zero ou autre PDDC.
    • Utiliser des licences imposant un devoir contributif aux ré-utilisateurs**. En utilisant les données publiques, le ré-utilisateurs s’engagent à rediffuser les données modifiées en redonnant à leurs utilisateurs les même libertés dont ils ont bénéficié. C’est le type de licence employé par les projets citoyens comme Wikipédia ou OpenStreetMap : CC-by-sa ou ODBL. Ce choix pourra permettre à tout utilisateur des données modifiées et rediffusées de vérifier la bonne application de l’article 12 de la loi de 1978 imposant la non-altération du sens. Il permettra en plus aux administrations de mieux suivre les usages faits à partir de leurs données, et de pouvoir profiter des éventuelles améliorations effectuées. En revanche, ce type de licence empêche les réutilisateurs de s’accaparer les données ou de les mélanger avec des données non diffusables. Pour ce type d’usages, les administrations publiques pourraient envisager de lever l’obligation contributive contre le paiement d’une redevance.

[[5]]

les licences : GPL, BSD, CC-By-Sa, ODBL, CC-by, CC-zero ou autre PDDC.

Licence informations publiques :

Elle est gratuite. Vous pouvez : rediffuser, distribuer, traiter, exploiter, inclure dans un produit, service ou application, les Informations publiques. À des fins commerciales ou non. Sous réserve : d’indiquer la source et la date de la dernière mise à jour des Informations publiques ; de ne pas induire en erreur les tiers quant au contenu ou à la source des Informations publiques.

[[6]]

[[7]]

[[8]]

[[9]]


Fonctionnant à l’aide de licences d’utilisation ( Étalab , ODBL, CC0, etc.)

    • NB : //les licences d’utilisation de données ne prévoient pas de transfert de propriété. Ainsi, vous ne pouvez pas vous considérer comme propriétaire des données que vous utilisez. En revanche, vous êtes propriétaire des données dérivées que vous générez vous-même.//**

Les données diffusées sans aucune licence affiliée sont soumises au droit commun : utilisation des données de façon très limitée. Pour les utiliser sans risques juridiques, il faut obtenir une autorisation auprès de leur producteur.

    • NB : //Quelle que soit la licence qui accompagne les données libérées, il est obligatoire d’indiquer dans la data visualisation réalisée les noms de chacun des producteurs des données, le lien hypertexte vers le site source (ou catalogue) et la date de leur mise à jour.//**
    • Les licences Open Data** : elles offrent de très grandes libertés d’utilisation et permettent de générer des données dérivées.

L’ODBL – Open Data Base Licence, L’ODC – Open Data commons, La CC0 – Creative Commons Zero, La licence Étalab – Licence Ouverte-Open Licence.

    • Les licences françaises** : ces licences sont applicables en France. Plus particulièrement, la licence Étalab a été rédigée pour être utilisée selon les principes de l’Open Data.

La licence Étalab – Licence Ouverte-Open Licence, La licence APIE (Agence du patrimoine immatériel de l’État), La licence IP (informations publiques), Les licences particulières : licences spéciales rédigées par les producteurs eux-mêmes. Elles sont généralement basées sur des licences qui existent déjà.

La licence Étalab a été rédigée dans ce but : elle respecte le droit commun, applique les vertus de l’Open Data et s’avère compatible avec les licences internationales les plus utilisées (ODBL et ODC). Elle est facile à comprendre et à appliquer. Elle est disponible en français et en anglais. Lorsque l’on utilise des données libérées ou que l’on génère des données dérivées, il faut toujours indiquer leur origine : nom du ou de leurs producteurs, lien hypertexte vers le site source (ou catalogue) et date de dernière mise à jour (généralement, il s’agit de leur date de libération). Ces indications peuvent être mises en annexe de la base de données créée, à la suite des données, dans un cadre attaché aux données ou dans un fichier joint.

    • //si l’on veut être fidèle aux mouvements du Libre et de l’Open Data, la licence CC By-SApeut être utilisée : libertés d’utilisation, d’adaptation et de modification des datavisus en obligeant à indiquer son auteur. De plus, toute création dérivée devra être diffusée sous les mêmes conditions d’utilisation.//**

[[10]]

Le choix opéré par le gouvernement français est celui d’une licence de type « BY », assurant une très large liberté puisqu’elle ne requiert de la part des réutilisateurs que la seule mention de la source des données (par exemple sous la forme d’un lien vers les données publiées)

De nombreuses collectivités comme Paris, Nantes, la Gironde ou bientôt le Grand Toulouse, ont fait quant à elles le choix d’ajouter une clause « SA » de redistribution des données enrichies (modèle « //share-alike// » de l’ODbL). Contrairement au schéma « BY » plus libéral choisi par Étalab, ce modèle cherche à encourager l’innovation par la redistribution contributive.

[[11]]

Groupe Yann, Mickael :


Comment ?

Les moyens en interne à mettre en place pour faire bouger l'entreprise dans le domaine de l'Opendata La question de la gratuité Comment récupérer les données (de notre côté) Classement des données en entrée : tri,... Stratégie de publication des données, moyens mis à dispo pour les classer, comment mettre à disposition les données,... Impact interne, organisationnel, changement des mentalités,...

Gratuit - Payant Moyens techniques Facilité d'accès pour les utilisateurs extérieurs Nouvelle organisation au sein de l'entreprise: nouveau service nouveaux bureaux, employés ou formation... Format accessible à tous, ou pas; compréhensibles comment publier : moyens techniques -> question de l'accessibilité ( à qui destine-t-on ces données ?)


- organisation interne -> service dédié ? -> chacun publie ce qu'il veut ? -> Marche à suivre entre: "on ve mettre ça en open data" et la publication: demande, validation, stockage en interne (sécurité), où publier

- mise à disposition -> vitesse de publication -> quantité de publication -> sous quelle forme ( rejoint à qui est destiné le message ) ? -> gratuite / payante ? -> entretien / mise à jour des données ?



Attributs :

    • __- Restrictions :__**

+ : publique + : interne + : secrète


    • __- Classement des données : __**

- JURIDIQUES : __+ : __ __- : __ - ENVIRONEMENTALES : __+ :__** **Transparence vis-à-vis de la clientèle. __- : __Problème de popularité. - ADMINISTRATIVES :

    • __+  :__** Transparence interne.

__- : __Défauts apparents. - ECONOMIQUES :

    • __+ : __** Le rapport MEPSIR datant de 2006, financé par la commission européenne, estime que le marché européen lié à la réutilisation des informations publiques représente 27 milliards d'euros.

[[12]]

    • __- : __**

-SCIENTIFIQUES :

    • __+ :__**
    • __- :__**

- TECHNIQUES :

    • __+ :__**
    • __- :__**

Environnemental (40%), technique (37%), opérationnel (26%) et marketing & communication (26%).


[[13]] [[14]]


    • __Qualité des données : __**
  • - Vos données (non filtrées c'est-à-dire dégradées) sont en ligne quel que soit leur format (n'importe quel format).

%%**%%- Vos données sont disponibles sous forme de données structurées (par exemple données tabulaires en CSV, XML, Excel, RDF). %%**%%*- Vos données sont libres d'être exploitées juridiquement (voir la partie sur les licences) et techniquement dans des formats non-propriétaires (notamment pas Excel. %%**%%%%**%%- Utiliser des URL pour identifier vos données, de sorte que l'on puisse pointer dessus. %%**%%%%**%%*- Lier vos données à d'autres personnes pour fournir un contexte à ces données.

    • __Encadrement et réglementation sur l'utilisation des données ouvertes__**

Résumé de la licence ODbL pour l'ouverture des bases de données : [[15]]

- Open Data et licences ? Des définitions, des licences : [[16]]

- Licence Creative Common

Quelles sont les restrictions/freins sur la publication des données ? la sécurité nationale ? Quels sont les intérêts/bénéfices à publier les données ?

Quels usages détournés des données ? (cf. données généalogiques pouvant être utilisées pour usurpation d'identité)

Dans le même registre, allez voir [[17]] L'économie du Web est basé sur la vente de vos données personelles et si un service est gratuit c'est que le produit c'est vous !

Mettre à la disposition de tous les publics l'ensemble de leurs données qui ne seraient pas protégées par ailleurs. Ces protections sont la protection des données à caractère personnel ou les documents protégés par un droit de propriété intellectuelle, ou encore mettant en jeu la sécurité publique.

Il faut trouver en quoi l'entreprise à un intérêt à communiquer ces informations, car trier puis diffuser les informations ont un coût, et elle ne voudra pas le payer sans retour.
Elle doit aussi s'assurer que la concurrence ne va pas pouvoir utiliser ces mêmes données à tort.