Cours 2/11Structure des donnees

Donnees Structurees

Comprends la difference entre donnees structurees et non structurees, et decouvre comment organiser les donnees pour les exploiter efficacement.

20 minNiveau Facile55 XP
1

Qu'est-ce qu'une donnee structuree ?

Une donnee structuree est une information organisee selon un format predetermine, avec des champs (colonnes) et des valeurs bien definis.

Donnees Structurees

  • Organisees en lignes et colonnes
  • Champs predetermines (nom, age, date...)
  • Faciles a rechercher et analyser
  • Formats : CSV, JSON, bases de donnees

Donnees Non Structurees

  • Format libre, pas de schema
  • Contenu variable et imprevisible
  • Difficiles a analyser automatiquement
  • Exemples : emails, photos, videos

80% des donnees mondiales sont non structurees ! (emails, videos, images, documents). Les structurer est un enjeu majeur pour les entreprises.

2

Le vocabulaire des donnees structurees

Collection / Table

L'ensemble des donnees organisees. Ex : la table "Eleves" contient tous les eleves.

Enregistrement / Ligne

Une entite complete dans la collection. Ex : une ligne = un eleve avec toutes ses infos.

Descripteur / Champ / Colonne

Un attribut de l'entite. Ex : "nom", "age", "classe" sont des descripteurs.

Valeur

Le contenu d'une cellule. Ex : "Alice", 15, "Paris" sont des valeurs.

Visualisation des donnees

nomagevilleclasse
Alice15Paris2nde3
Bob16Lyon2nde1
Clara15Marseille2nde3
David16Bordeaux2nde2
4 enregistrements|4 descripteurs
3

Exemples du quotidien

📱Contacts du telephone

Descripteurs : Nom, Prenom, Telephone, Email

Enregistrement : Marie Dupont, 06.12.34.56.78

🏫Bulletin scolaire

Descripteurs : Matiere, Note, Coefficient, Moyenne

Enregistrement : Maths, 15, 4, 14.5

🛒Panier e-commerce

Descripteurs : Produit, Prix, Quantite, Total

Enregistrement : Livre Python, 25EUR, 1, 25EUR

🎮Classement jeu video

Descripteurs : Pseudo, Score, Niveau, Temps

Enregistrement : xX_Gamer_Xx, 15420, 42, 2h30

4

Manipuler des donnees structurees en Python

Liste de dictionnaires (structure de donnees)

# Definir une collection structuree
eleves = [
    {"nom": "Alice", "age": 15, "classe": "2nde3", "moyenne": 14.5},
    {"nom": "Bob", "age": 16, "classe": "2nde1", "moyenne": 12.0},
    {"nom": "Clara", "age": 15, "classe": "2nde3", "moyenne": 16.5},
]

# Acceder a un enregistrement
print(eleves[0]["nom"])  # Alice

# Parcourir tous les enregistrements
for eleve in eleves:
    print(f"{eleve['nom']} : {eleve['moyenne']}/20")

Filtrer et analyser

# Filtrer : eleves de plus de 15 ans
plus_de_15 = [e for e in eleves if e["age"] > 15]
print("Plus de 15 ans :", [e["nom"] for e in plus_de_15])
# Resultat : Plus de 15 ans : ['Bob']

# Calculer la moyenne des moyennes
moyennes = [e["moyenne"] for e in eleves]
moyenne_classe = sum(moyennes) / len(moyennes)
print(f"Moyenne de la classe : {moyenne_classe:.1f}/20")
# Resultat : Moyenne de la classe : 14.3/20

# Trier par moyenne (decroissant)
top_eleves = sorted(eleves, key=lambda e: e["moyenne"], reverse=True)
print("Meilleur eleve :", top_eleves[0]["nom"])
# Resultat : Meilleur eleve : Clara
5

Pourquoi structurer ses donnees ?

🔍

Recherche facile

Trouver rapidement une donnee precise : "Tous les eleves de 2nde3".

📊

Analyse statistique

Calculer des moyennes, des totaux, des tendances automatiquement.

🔄

Interoperabilite

Partager facilement entre applications (Excel, Python, bases de donnees).

Qualite des donnees

Validation automatique : verifier que l'age est un nombre, que l'email est valide...

Semi-structure : Certaines donnees sont "semi-structurees" comme les emails (expediteur et date sont structures, mais le contenu est libre) ou les pages web HTML.

Quiz de validation

Question 1: Qu'est-ce qu'une donnee structuree ?

Question 2: Quel format n'est PAS un format de donnees structurees ?

Question 3: Dans un fichier CSV, comment s'appellent les lignes et les colonnes ?

Question 4: Quel est l'avantage principal des donnees structurees ?

Question 5: Combien de champs (descripteurs) contient cette structure ? {"nom": "Alice", "age": 15, "ville": "Paris", "classe": "2nde"}

A retenir

  • Donnees structurees = organisees selon un schema avec des champs definis.
  • Enregistrement = une ligne (une entite), Descripteur = une colonne (un attribut).
  • Formats courants : CSV, JSON, bases de donnees.
  • Avantages : recherche facile, analyse statistique, partage entre applications.

Dans ce cours


Progression du theme

2/11 cours completes

Pixel