Donnees Structurees
Comprends la difference entre donnees structurees et non structurees, et decouvre comment organiser les donnees pour les exploiter efficacement.
Qu'est-ce qu'une donnee structuree ?
Une donnee structuree est une information organisee selon un format predetermine, avec des champs (colonnes) et des valeurs bien definis.
Donnees Structurees
- Organisees en lignes et colonnes
- Champs predetermines (nom, age, date...)
- Faciles a rechercher et analyser
- Formats : CSV, JSON, bases de donnees
Donnees Non Structurees
- Format libre, pas de schema
- Contenu variable et imprevisible
- Difficiles a analyser automatiquement
- Exemples : emails, photos, videos
80% des donnees mondiales sont non structurees ! (emails, videos, images, documents). Les structurer est un enjeu majeur pour les entreprises.
Le vocabulaire des donnees structurees
Collection / Table
L'ensemble des donnees organisees. Ex : la table "Eleves" contient tous les eleves.
Enregistrement / Ligne
Une entite complete dans la collection. Ex : une ligne = un eleve avec toutes ses infos.
Descripteur / Champ / Colonne
Un attribut de l'entite. Ex : "nom", "age", "classe" sont des descripteurs.
Valeur
Le contenu d'une cellule. Ex : "Alice", 15, "Paris" sont des valeurs.
Visualisation des donnees
| nom | age | ville | classe |
|---|---|---|---|
| Alice | 15 | Paris | 2nde3 |
| Bob | 16 | Lyon | 2nde1 |
| Clara | 15 | Marseille | 2nde3 |
| David | 16 | Bordeaux | 2nde2 |
Exemples du quotidien
📱Contacts du telephone
Descripteurs : Nom, Prenom, Telephone, Email
Enregistrement : Marie Dupont, 06.12.34.56.78
🏫Bulletin scolaire
Descripteurs : Matiere, Note, Coefficient, Moyenne
Enregistrement : Maths, 15, 4, 14.5
🛒Panier e-commerce
Descripteurs : Produit, Prix, Quantite, Total
Enregistrement : Livre Python, 25EUR, 1, 25EUR
🎮Classement jeu video
Descripteurs : Pseudo, Score, Niveau, Temps
Enregistrement : xX_Gamer_Xx, 15420, 42, 2h30
Manipuler des donnees structurees en Python
Liste de dictionnaires (structure de donnees)
# Definir une collection structuree
eleves = [
{"nom": "Alice", "age": 15, "classe": "2nde3", "moyenne": 14.5},
{"nom": "Bob", "age": 16, "classe": "2nde1", "moyenne": 12.0},
{"nom": "Clara", "age": 15, "classe": "2nde3", "moyenne": 16.5},
]
# Acceder a un enregistrement
print(eleves[0]["nom"]) # Alice
# Parcourir tous les enregistrements
for eleve in eleves:
print(f"{eleve['nom']} : {eleve['moyenne']}/20")Filtrer et analyser
# Filtrer : eleves de plus de 15 ans
plus_de_15 = [e for e in eleves if e["age"] > 15]
print("Plus de 15 ans :", [e["nom"] for e in plus_de_15])
# Resultat : Plus de 15 ans : ['Bob']
# Calculer la moyenne des moyennes
moyennes = [e["moyenne"] for e in eleves]
moyenne_classe = sum(moyennes) / len(moyennes)
print(f"Moyenne de la classe : {moyenne_classe:.1f}/20")
# Resultat : Moyenne de la classe : 14.3/20
# Trier par moyenne (decroissant)
top_eleves = sorted(eleves, key=lambda e: e["moyenne"], reverse=True)
print("Meilleur eleve :", top_eleves[0]["nom"])
# Resultat : Meilleur eleve : ClaraPourquoi structurer ses donnees ?
Recherche facile
Trouver rapidement une donnee precise : "Tous les eleves de 2nde3".
Analyse statistique
Calculer des moyennes, des totaux, des tendances automatiquement.
Interoperabilite
Partager facilement entre applications (Excel, Python, bases de donnees).
Qualite des donnees
Validation automatique : verifier que l'age est un nombre, que l'email est valide...
Semi-structure : Certaines donnees sont "semi-structurees" comme les emails (expediteur et date sont structures, mais le contenu est libre) ou les pages web HTML.
Quiz de validation
Question 1: Qu'est-ce qu'une donnee structuree ?
Question 2: Quel format n'est PAS un format de donnees structurees ?
Question 3: Dans un fichier CSV, comment s'appellent les lignes et les colonnes ?
Question 4: Quel est l'avantage principal des donnees structurees ?
Question 5: Combien de champs (descripteurs) contient cette structure ? {"nom": "Alice", "age": 15, "ville": "Paris", "classe": "2nde"}
A retenir
- ✓Donnees structurees = organisees selon un schema avec des champs definis.
- ✓Enregistrement = une ligne (une entite), Descripteur = une colonne (un attribut).
- ✓Formats courants : CSV, JSON, bases de donnees.
- ✓Avantages : recherche facile, analyse statistique, partage entre applications.
Dans ce cours
Progression du theme
2/11 cours completes
