Domanda | Risposta | |||
---|---|---|---|---|
Collecter, Stocker, Distribuer, Exploiter
|
||||
Science multidisciplinaire visant l’extraction de connaissance à partir d’ensemble de données
|
||||
Data mining -> découvrir et d’extraire un savoir ou uneconnaissance à partir de (grandes) quantités de données
|
||||
Champ d'étude de l’intelligence artificielle. Permet à une machine d’apprendre automatiquement à partir d’un ensemble de données et produire des actions par prédiction/déduction
|
||||
Apprentissage supervisé. Apprentissage non-supervisé. Apprentissage par renforcement
|
||||
les données non structurées, une carence des outils de traitement des données, l’absence de mesure du ROI
|
||||
Descriptive: trouver les patterns. Prédictive: inférence à partir des données actuelles pour prédire des évolutions
|
||||
Regroupement (clustering), Détection d'anomalies, Règles d'association
|
||||
Arbre de décision, régréssion linéaire
|
||||
R, Python, SQL
|
||||
MongoDB, CouchDB
|
||||
Système de gestion de bases de données relationnelles
|
||||
Oracle, MySQL, MSSQL
|
||||
Identifie un type d'entité ou un type d'association
|
||||
Identifier de manière unique un enregistrement dans une table.
|
||||
Un ou ensemble d'attributs, qui est clé primaire dans une autre relation (ex.: numéro du client dans la table commande)
|
||||
codeClient dans clients() est une clé primaire, codeClient est la clé étrangère dans commandes()
|
||||
Mêmes données que dans les BDs, mais aggrégées, sommarisées, orientées métier pour faciliter l’analyse.
|
||||
Données brutes et volumineuses, non modélisées, non structurées, stockées pour un usage ultérieur. L'accès est complexe.Ex.: IdO, média sociaux, appareils mobiles
|
||||
Compréhension du problème, compréhension des données, Préparation des données, Modélisation, Évaluation, Déploiement
|
||||
BD relationnelles, Entrepôt de données, Data Lake
|
||||
Ajouter une condition à la requête.
|
||||
Sources diverses, redondantes, manquantes, incohérentes
|
||||
Extract Transform Load
|
||||
Table de faits, table de dimensions
|
||||
Volume, Vitesse, Variété
|
||||
Data lake
|
||||
Le data warehouse a une structure destructrice des détails et a des données qui satisfont un besoin identifié. Le lac de données absorbe un flux de données bruts + schema on read.
|
||||
Infère un résulat à partir de données étiquettées (ex.: Arbre de décision)
|
||||
Essaie de trouver une structure à partir de données non étiquettées (ex.: Règle d’association)
|
||||
Effectue une action dans le but de maximiser une «récompense» (ex.: Chaîne de Markov)
|
||||
Analyse des besoins
|
||||
Élaboration du modèle conceptuel de données (MCD)
|
||||
Élaboration du modèle logique de données (MLD) et normalisation
|
||||
Élaboration du modèle physique de données (MPD) et Implémentation du MLD dans un SGBDR spécifique
|
||||
L'ensemble des informations à stocker
|
||||
Mener des analyses poussées sur différents sujets d'affaires, vue consolidée des données de l'entreprise, simplifient l'accès de données
|
||||
ERP (enterprise resource planning) et CRM (customer relationshi management)
|
||||
L’informatique décisionnelle est l'informatique à l'usage des décideurs et des dirigeants d'entreprises.
|
||||
Un Entrepôt de données est une base de données regroupant une partie ou l'ensemble des données fonctionnelles d'une entreprise. Il entre dans le cadre de l'informatique décisionnelle.
|
||||
Sources de données hétérogènes, quantité d'information ne cesse d'augmenter
|
||||
La requête risque de ne pas être performante (jointures, beaucoup de données à lire). Ceci va ralentir le système transactionnel de l’entreprise. Les données peuvent être dans plusieurs BD.
|
||||
Le data warehouse
|
||||
Orientée sujet (organisées par client produit etc), intégrées (proviennent de plusieurs sources), non-volatiles (ne se modifient jamais et ne sont pas supprimées)
|
||||
SGBD
|
||||
Data warehouse
|
||||
Simplifie l'accès aux données, permet des analyses plus poussées sur différents sujets d'affaires
|
||||
Collection –Intégration –Organisation –Restitution
|
||||
un sous-ensemble d’un data warehouse destiné à fournir des données aux utilisateurs, et souvent spécialisé vers un groupe ou un type d'affaire
|
||||
Technique de conception logique utilisée pour les entrepôts de données.
|
||||
Modèle en étoile, modèle en constellation de faits, modèle en flocon de neige
|
||||
Compréhension du marché, compréhension des données, préparation des données, modélisation, évaluation, déploiement
|
||||
résumer et présenterles données observées afin d'en en prendre connaissance plusfacilement sous forme de tableaux, graphes, etc.
|
||||
étendre et/ou généraliser les conclusions obtenues mais sous certaines conditions
|
||||
Comprendre le contexte, choisir représentation visuelle, rafiner, interaction
|
||||
regrouper tout ce qui se ressemble, et éloigner tout ce qui est franchement différent.
|
||||
C’est un ensemble de techniques pour réduire la taille d’unjeu de données
|
||||
les capacités de stockage augmentent rapidement, mais la vitesse d’accès n’augmente pas au même rythme
|
||||
Hadoop est un framework open source. Le stockage et le traitement sont tous les deux parallélisés.
|
||||
Solution pour accélérer le traitement des systèmes Hadoop
|
||||
Atomicité, Cohérence, Isolation, Durabilité
|
||||
clé/valeur (redis), orienté colonne (cassandra), orienté document (mongodb), orienté graphe (neo4j)
|
||||
États-nation, cybercriminels, hacktivistes, script kiddies
|
||||
comme la fraude du président
|
||||
Réduction d'attributs, séléction d'attributs
|
||||
La gouvernance de données associe un ensemble de personnes, de processus et de technologiespour garantir la qualité et la valeur des informations d’une entreprise.
|
||||
l’amélioration de la segmentation, l’amélioration de la confiance en le reporting
|