Fiche : Les donnees
Theme 4 du programme SNT
Notions essentielles
- Donnee : Information elementaire representee sous forme numerique (texte, nombre, image, son...).
- Donnees structurees : Donnees organisees selon un format precis (tableaux, bases de donnees). Faciles a traiter automatiquement.
- Metadonnees : Donnees qui decrivent d'autres donnees (date de creation, auteur, taille, localisation GPS d'une photo...).
- Format CSV : Format texte ou les valeurs sont separees par des virgules. Chaque ligne = un enregistrement.
- Format JSON : Format structure avec des paires cle-valeur. Tres utilise pour les API web.
- Big Data : Ensemble de donnees trop volumineuses pour etre traitees par des outils classiques (Volume, Velocite, Variete).
- Open Data : Donnees ouvertes, accessibles a tous gratuitement et reutilisables librement (data.gouv.fr).
Vocabulaire cle
- Descripteur
- Nom d'une colonne dans un tableau de donnees (ex: Nom, Age, Ville).
- Enregistrement
- Une ligne dans un tableau, correspondant a une entite (une personne, un objet...).
- Base de donnees
- Ensemble organise de donnees stockees et accessibles par des requetes.
- Requete
- Instruction pour interroger une base de donnees (filtrer, trier, calculer).
- Cloud
- Stockage de donnees sur des serveurs distants accessibles via Internet.
- Anonymisation
- Suppression des informations permettant d'identifier une personne dans un jeu de donnees.
- Donnees personnelles
- Informations permettant d'identifier une personne (nom, email, IP, photo...).
- Data center
- Centre de donnees : batiment hebergeant de nombreux serveurs informatiques.
Formats de donnees
Format CSV
nom,age,ville Alice,17,Paris Bob,16,Lyon Claire,17,Marseille
Separateur : virgule (ou point-virgule en France)
Format JSON
{
"eleves": [
{"nom": "Alice", "age": 17},
{"nom": "Bob", "age": 16}
]
}Structure : cles et valeurs entre accolades
Unites de stockage
1 octet
8 bits
1 Ko
1024 octets
1 Mo
1024 Ko
1 Go
1024 Mo
Pieges a eviter
- 1.CSV avec virgules dans les valeurs : Utiliser des guillemets "Paris, France" ou un autre separateur (;).
- 2.Ko vs ko (kilo-octet vs kilobit) : 1 Ko = 8 kb. Les debits sont souvent en kb/s, les fichiers en Ko.
- 3.Metadonnees et vie privee : Une photo peut contenir votre localisation GPS dans ses metadonnees EXIF !
- 4.Open Data ≠ Donnees personnelles : L'Open Data concerne des donnees publiques, jamais des donnees personnelles.
- 5.Anonymisation incomplete : Croiser plusieurs donnees "anonymes" peut parfois re-identifier une personne.
A retenir pour le Bac
Les 3 V du Big Data
- Volume : quantite massive de donnees
- Velocite : vitesse de production/traitement
- Variete : types differents de donnees
+ parfois Veracite et Valeur
Types de donnees
- Numeriques : entiers, decimaux
- Textuelles : chaines de caracteres
- Booleennes : vrai/faux
- Temporelles : dates, heures
- Multimedia : images, sons, videos
