Fiche : Les donnees

Theme 4 du programme SNT

Notions essentielles

  • Donnee : Information elementaire representee sous forme numerique (texte, nombre, image, son...).
  • Donnees structurees : Donnees organisees selon un format precis (tableaux, bases de donnees). Faciles a traiter automatiquement.
  • Metadonnees : Donnees qui decrivent d'autres donnees (date de creation, auteur, taille, localisation GPS d'une photo...).
  • Format CSV : Format texte ou les valeurs sont separees par des virgules. Chaque ligne = un enregistrement.
  • Format JSON : Format structure avec des paires cle-valeur. Tres utilise pour les API web.
  • Big Data : Ensemble de donnees trop volumineuses pour etre traitees par des outils classiques (Volume, Velocite, Variete).
  • Open Data : Donnees ouvertes, accessibles a tous gratuitement et reutilisables librement (data.gouv.fr).

Vocabulaire cle

Descripteur
Nom d'une colonne dans un tableau de donnees (ex: Nom, Age, Ville).
Enregistrement
Une ligne dans un tableau, correspondant a une entite (une personne, un objet...).
Base de donnees
Ensemble organise de donnees stockees et accessibles par des requetes.
Requete
Instruction pour interroger une base de donnees (filtrer, trier, calculer).
Cloud
Stockage de donnees sur des serveurs distants accessibles via Internet.
Anonymisation
Suppression des informations permettant d'identifier une personne dans un jeu de donnees.
Donnees personnelles
Informations permettant d'identifier une personne (nom, email, IP, photo...).
Data center
Centre de donnees : batiment hebergeant de nombreux serveurs informatiques.

Formats de donnees

Format CSV

nom,age,ville
Alice,17,Paris
Bob,16,Lyon
Claire,17,Marseille

Separateur : virgule (ou point-virgule en France)

Format JSON

{
  "eleves": [
    {"nom": "Alice", "age": 17},
    {"nom": "Bob", "age": 16}
  ]
}

Structure : cles et valeurs entre accolades

Unites de stockage

1 octet
8 bits
1 Ko
1024 octets
1 Mo
1024 Ko
1 Go
1024 Mo

Pieges a eviter

  • 1.
    CSV avec virgules dans les valeurs : Utiliser des guillemets "Paris, France" ou un autre separateur (;).
  • 2.
    Ko vs ko (kilo-octet vs kilobit) : 1 Ko = 8 kb. Les debits sont souvent en kb/s, les fichiers en Ko.
  • 3.
    Metadonnees et vie privee : Une photo peut contenir votre localisation GPS dans ses metadonnees EXIF !
  • 4.
    Open Data ≠ Donnees personnelles : L'Open Data concerne des donnees publiques, jamais des donnees personnelles.
  • 5.
    Anonymisation incomplete : Croiser plusieurs donnees "anonymes" peut parfois re-identifier une personne.

A retenir pour le Bac

Les 3 V du Big Data

  • Volume : quantite massive de donnees
  • Velocite : vitesse de production/traitement
  • Variete : types differents de donnees

+ parfois Veracite et Valeur

Types de donnees

  • Numeriques : entiers, decimaux
  • Textuelles : chaines de caracteres
  • Booleennes : vrai/faux
  • Temporelles : dates, heures
  • Multimedia : images, sons, videos
Pixel