
Data Mining et statistique décisionnelle. La science des données, 5e édition revue et augmentée
Le data mining et la data science sont de plus en plus répandus dans les entreprises et les organisations soucieuses d'extraire l'information pertinente de leurs bases de données, qu'elles peuvent utiliser pour expliquer et prévoir les phénomènes qui les concernent (risques, production, consommation, fidélisation...). Cette cinquième édition, actualisée et augmentée de 90 pages, fait le point sur le data mining, ses méthodes, ses outils et ses applications, qui vont du scoring jusqu'au text mining, objet d'un chapitre complètement remanié. Nombre de ses outils appartiennent à l'analyse des données et à la statistique "classiques" (analyse factorielle, classification automatique, analyse discriminante, régression logistique, modèles linéaires généralisés, régression pénalisée, régression clusterwise...) mais certains sont plus spécifiques au data mining, comme les réseaux de neurones, les algorithmes génétiques, les SVM, les arbres de décision, les forêts aléatoires, le boosting et la détection des règles d'associations. Les avancées les plus récentes du machine learning et les applications les plus actuelles des Big Data sont présentées, qui vont des algorithmes de reconnaissance d'image aux méthodes de plongement de mots en text mining. Les chapitres sur les réseaux de neurones et les SVM sont illustrés par la reconnaissance de l'écriture manuscrite. Ces outils sont disponibles dans des logiciels de plus en plus puissants et complets, à commencer par le logiciel libre R, que nous comparons en détail aux logiciels SAS et IBM SPSS dans un chapitre spécifique. Ces logiciels sont utilisés pour illustrer par des exemples précis les explications théoriques données. Les aspects méthodologiques vont de la conduite des projets jusqu'aux facteurs de réussite et aux pièges à éviter, en passant par l'évaluation et la comparaison des modèles, leur intégration dans les processus opérationnels. Un chapitre est consacré à une étude de cas complète de credit scoring, de l'exploration des données jusqu'à l'élaboration de la grille de score.
| Nombre de pages | 914 |
|---|---|
| Date de parution | 14/10/2017 |
| Poids | 1 569g |
| Largeur | 171mm |
| EAN | 9782710811800 |
|---|---|
| Titre | Data Mining et statistique décisionnelle. La science des données, 5e édition revue et augmentée |
| Auteur | Tufféry Stéphane |
| Editeur | TECHNIP |
| Largeur | 171 |
| Poids | 1569 |
| Date de parution | 20171014 |
| Nombre de pages | 914,00 € |
Pourquoi choisir Molière ?
Du même auteur
-

Modélisation prédictive et apprentissage statistique avec R. 2e édition revue et augmentée
Tufféry StéphaneIssu de formations devant des publics variés, cet ouvrage présente les principales méthodes de modélisation statistique et de machine learning, à travers le fil conducteur d'une étude de cas. Chaque méthode fait l'objet d'un rappel de cours et est accompagnée de références bibliographiques, puis est mise en oeuvre avec des explications détaillées sur les calculs effectués, les interprétations des résultats, et jusqu'aux astuces de programmation permettant d'optimiser les temps de calcul. A ce sujet, une annexe est consacrée au traitement des données massives. L'ouvrage commence par les méthodes de classement les plus classiques et les plus éprouvées, mais aborde rapidement les méthodes les plus récentes et les plus avancées : régression ridge, lasso, elastic net, boosting, forêts aléatoires, Extra-Trees, réseaux de neurones, séparateurs à vaste marge (SVM). A chaque fois, le lien est fait entre la théorie et les résultats obtenus, pour montrer qu'ils illustrent bien les principes sous-jacents à ces méthodes. L'aspect pratique est aussi privilégié, avec l'objectif de permettre au lecteur une mise en oeuvre rapide et efficace dans son travail concret. L'exploration et la préparation préliminaire des données sont d'ailleurs décrites, ainsi que le processus de sélection des variables. Une synthèse finale est faite de toutes les méthodes présentées et de leurs points forts. La mise en oeuvre s'appuie sur le logiciel libre R et sur un jeu de données public. Ce dernier peut être téléchargé sur Internet et présente l'intérêt d'être riche, complet et de permettre des comparaisons grâce aux nombreuses publications dans lesquelles il est cité. Quant au logiciel statistique R, non seulement il est devenu la lingua franca de la statistique et de la data science et le logiciel le plus répandu dans le monde universitaire, mais il a aussi conquis le monde de l'entreprise, à tel point que tous les logiciels commerciaux proposent désormais une interface avec R (ce point est abordé dans une annexe). Outre qu'il est disponible pour tous, dans tous les environnements, il est aussi le plus riche statistiquement, et c'est le seul logiciel permettant de mettre en oeuvre toutes les méthodes présentées dans cet ouvrage. Enfin, son langage de programmation particulièrement élégant et adapté au calcul mathématique permet de se concentrer dans le codage sur les aspects statistiques, sans les difficultés de programmation rencontrées avec d'autres logiciels. R permet d'arriver directement à l'essentiel et de mieux comprendre les méthodes exposées dans l'ouvrage.ÉPUISÉVOIR PRODUIT45,00 € -

Etude de cas en statistique décisionnelle. 2e édition revue et augmentée
Tufféry StéphaneComprendre les principes théoriques de la statistique est une chose ; savoir les mettre en pratique en est une autre, et le fossé peut être large entre les deux. C'est pour vous aider à le franchir que l'auteur a écrit un ouvrage de "travaux pratiques" de la statistique décisionnelle et de la data science, qui fait suite à son ouvrage Data Mining et Statistique Décisionnelle paru dans la même collection. Ce nouvel ouvrage présente une étude de cas réalisée de A à Z à partir du même jeu de données, et répondant de façon complète et cohérente à deux importantes problématiques : la construction d'une segmentation de clientèle et l'élaboration d'un score d'appétence à l'achat d'un produit ou la souscription d'un contrat. Les données utilisées sont à la fois réelles et complètes. Elles proviennent du secteur de l'assurance, mais l'étude qu'elles permettent de réaliser peut se transposer a de nombreux autres domaines. Ces données sont disponibles sur le Web, notamment sur le site des Editions Technip où elles sont accompagnées des programmes présentés dans l'ouvrage. Ceci permettra au lecteur de compléter sa lecture par des exercices personnels, par le test de variantes, mais aussi d'utiliser ces programmes pour les appliquer à ses propres données et ses propres projets. L'étude de cas est menée avec le logiciel SAS, qui est à la fois le plus complet et le plus répandu des logiciels statistiques commerciaux, et qui permet de traiter tous les sujets abordés dans l'ouvrage, et même d'optimiser et d'automatiser les traitements. Tout au long de l'ouvrage, une bonne partie des procédures classiques de SAS/STAT est passée en revue, en mentionnant les améliorations des versions récentes, mais, au-delà des questions de programmation, nous souhaitons surtout montrer au lecteur qu'il est souhaitable et possible de conjuguer rigueur et productivité. Pour le scoring, quatre méthodes classiques de modélisation sont mises en oeuvre et comparées, l'analyse discriminante linéaire, les arbres de décision, la régression logistique et le classificateur bayésien naïf, de même que le bagging et deux méthodes plus avancées mises en oeuvre par l'appel de code R dans le programme SAS : les forêts aléatoires et le gradient boosting.Sur commande, 4 à 6 joursCOMMANDER45,00 € -

Big Data, Machine Learning et apprentissage profond
Tufféry StéphaneCet ouvrage montre comment appliquer les méthodes de machine learning aux Big Data, et comment appliquer les méthodes plus spécifiques de deep learning aux problèmes plus complexes relevant de l'intelligence artificielle, tels que la reconnaissance d'image et le traitement du langage naturel.Sur commande, 4 à 6 joursCOMMANDER45,00 € -

Modélisation prédictive et apprentissage statistique avec R
Tufféry StéphaneCet ouvrage présente les principales méthodes de modélisation statistique et de machine learning, à travers le fil conducteur d'une étude de cas bancaire. Chaque méthode fait l'objet d'un rappel de cours et est accompagnée de références bibliographiques, puis est mise en couvre avec des explications détaillées sur les calculs effectués, les interprétations des résultats, et jusqu'aux astuces de programmation permettant d'optimiser les temps de calcul. A ce sujet, une annexe est consacrée au traitement des données massives. L'ouvrage commence par les méthodes de classement les plus classiques et les plus éprouvées, pour ensuite aborder les méthodes les plus récentes et les plus avancées régression ridge, lasso, elastic net, boosting, forêts aléatoires, Extra-Trees, SVM et réseaux de neurones. Le lien est toujours fait entre la théorie et les résultats obtenus, pour montrer qu'ils illustrent bien les principes sous-jacents à ces méthodes. L'aspect pratique est aussi privilégié, avec l'objectif de permettre au lecteur une mise en oeuvre rapide et efficace dans son travail concret. L'exploration et la préparation des données sont d'ailleurs décrites, ainsi que le processus de sélection des variables. Une synthèse finale récapitule les méthodes présentées et leurs points forts. Entre autres nouveautés, cette troisième édition présente le gradient boosting ainsi que des techniques innovantes pour automatiser la recherche des meilleurs modèles (auto-machine learning) et expliquer leurs prédictions individuelles, souci d'explicabilité qui s'est développé avec l'avènement des modèles complexes "boites noires". La mise en couvre s'appuie sur le logiciel libre R et sur un jeu de données public. Ce dernier peut être téléchargé sur Internet et présente l'intérêt d'être représentatif et de permettre des comparaisons grâce aux nombreuses publications dans lesquelles il est cité. Quant au logiciel R, s'il est devenu la lingua franca de la statistique et un logiciel très répandu dans le monde universitaire, il a aussi conquis le monde de l'entreprise. Outre qu'il est disponible pour tous, dans tous les environnements, il est aussi le plus complet statistiquement et il permet de mettre en couvre toutes les méthodes présentées dans cet ouvrage. Enfin, son langage de programmation particulièrement élégant et adapté au calcul mathématique permet de se concentrer sur les aspects statistiques dans le codage. R permet d'arriver directement à l'essentiel et de mieux assimiler les méthodes exposées dans l'ouvrage.Sur commande, 4 à 6 joursCOMMANDER45,95 €
Du même éditeur
-

Le dessin technique de la tuyauterie industrielle. 3ème édition entièrement renouvelée
Bahr EdouardCet ouvrage rassemble les différents modes de présentation d'éléments chaudronnés couramment utilisés dans l'industrie. Il énonce les principes de base de construction, en perspective isométrique, des lignes de tuyauterie suivant les représentations simplifiées conventionnelles. Par de nombreuses illustrations, il permet au concepteur de plans d'établir la corrélation entre le symbole et l'appareil. Des exemples, extraits d'ensembles industriels, en illustrent l'emploi.Sur commande, 2 à 4 joursCOMMANDER36,00 € -

LE RAFFINAGE DU PETROLE.TOME 3, PROCEDES DE TRANSFORMATION
Leprince PierreÉPUISÉVOIR PRODUIT147,00 € -

La régression PLS. Théorie et pratique
Tenenhaus MichelDe nombreux problèmes industriels ou de management peuvent être décrits sous la forme d'un système à entrées-sorties : les variables de sortie Y du système dépendent de variables d'entrée X plus ou moins contrôlables. Il s'agit de comprendre et de décrire les relations souvent très complexes entre X et Y, en l'absence d'un modèle théorique. De nombreux problèmes industriels ou de management peuvent être décrits sous la forme d'un système à entrées-sorties : les variables de sortie Y du système dépendent de variables d'entrée X plus ou moins contrôlables. Il s'agit de comprendre et de décrire les relations souvent très complexes entre X et Y, en l'absence d'un modèle théorique. La régression PLS (Partial Least Squares) est une méthode d'analyse des données spécifiquement construite pour l'étude de ce type de problème. Elle a été proposée en 1983 par Svante Wold et ses collaborateurs et connaît depuis de grands développements, principalement dans le domaine des industries chimiques, pétrolières et agro-alimentaires. La régression PLS doit pouvoir s'appliquer à de nombreux domaines avec le même succès qu'en chimie. C'est ce que nous voulons démontrer dans ce livre dont l'objet est de faire le point sur cette méthode, à la fois sur les plans théorique et pratique. Sur le plan théorique, nous avons eu trois objectifs : Situer la régression PLS parmi les méthodes d'association et de prédiction en analyse des données : analyse canonique, analyse factorielle inter-batteries, analyse des redondances, algorithme NIPALS, algorithme SIMPLS et approche PLS. Décrire l'algorithme de régression PLS dans sa forme originale telle qu'elle est programmée dans des logiciels comme SIMCA ou The Unscrambler. Présenter en détail les principales propriétés mathématiques de la régression PLS car leur connaissance est essentielle pour une bonne utilisation de la méthode. Sur le plan pratique, nous illustrons l'apport de la régression PLS en l'utilisant sur de nombreux exemples tirés de la littérature. Nous décrivons avec un maximum de détails les sorties du logiciel de référence (SIMCA) à partir de ces exemples. Ainsi, un utilisateur de la régression PLS devrait trouver dans ce livre toute l'aide nécessaire pour une exploitation optimale des résultats.Sur commande, 2 à 4 joursCOMMANDER60,00 € -

LE RAFFINAGE DU PETROLE.TOME 5, EXPLOITATION ET GESTION DE LA RAFFINERIE
Favennec Jean-PierreÉPUISÉVOIR PRODUIT143,00 €
De la même catégorie
-

Analyse de données avec SPSS
Porcher Simon ; Laporte Marie-Eve ; Sabri OuidadeUn ouvrage complet de l'analyse de données avec SPSS de révision et d'entraînement : Cours, QCM commentés, entraînement. L'ouvrage propose les principaux concepts de l'analyse de données. Celle-ci permet de traiter un nombre très important de données afin de prendre des décisions stratégiques, managériales ou marketing. Le livre est basé sur les cours enseignés depuis plusieurs années par les trois enseignants à l'IAE de Paris, l'IAE Gustave Eiffel et la London School of Economics. Chaque fiche comprend les connaissances essentielles, un QCM dont le corrigé est l'occasion de rappeler les notions incontournables, et des exercices corrigés. Un cas de synthèse clôture l'ouvrage.ÉPUISÉVOIR PRODUIT17,90 € -

Statitiques appliquées. Avec introduction au logiciel R
Marchal OlivierDans cet ouvrage inspiré de son expérience d'enseignant, l'auteur présente, pour un public non spécialiste des mathématiques, les bases des statistiques appliquées modernes ainsi que leur implémentation dans le logiciel libre R. L'ouvrage aborde ainsi l'aspect descriptif des statistiques (représentations graphiques, moyenne, écarts-types empiriques, etc.) puis les intervalles de confiance, les tests d'hypothèses paramétriques et non-paramétriques, les régressions linéaires et les tests ANOVA, qui constituent les outils indispensables de l'analyse de données expérimentales. Illustré d'exemples types et de nombreux exercices intégralement corrigés, il permet une approche pratique sans négliger le cadre d'emploi ainsi que les limites propres à chaque outil. Destiné à des étudiants de Licence ou à toute personne souhaitant acquérir rapidement les techniques modernes de statistiques nécessaires afin de réaliser des analyses de données, il propose également, sans technicité excessive, les commandes en R permettant de réaliser chacun des outils abordés et de les adapter rapidement à des cas similaires. Ainsi, il apparaît particulièrement indiqué dans le cadre de la réalisation d'analyses de données pour un stage, un mémoire ou une thèse dans les domaines de la biologie, de la médecine, de la sociologie ou de tout autre domaine des sciences appliquées.Sur commandeCOMMANDER28,01 € -

Mise en oeuvre des probabilités et des statistiques. Cours, exercices et problèmes de synthèse corri
Mansour Ali ; Osswald ChristopheLa probabilité est une science indispensable pour nombre de technologies et domaines de recherche. En effet, elle trouve des applications dans la physique quantique, comme en astronomie, télécommunications, radar, sonar, etc. Les méthodes statistiques ont été largement appliquées en ingénierie comme en finance ou en sociologie. Cet ouvrage s'appuie sur un texte clair, simple et concis. Il est plus riche en exemples et exercices résolus, en codes de programmation sous Matlab ou Python qu'en démonstrations, mais il permet de modéliser des situations complexes, continues comme discrètes. Il s'adresse à un public large d'étudiants en parcours universitaire ou de grande école, ingénieurs ou commerciaux. Des chercheurs de tous domaines amenés à traiter des données y trouveront des outils pertinents. Les auteurs ont développé des problèmes de synthèse pour résoudre des problèmes réels rencontrés dans des applications variées. En élaborant plusieurs solutions pour résoudre les divers exercices, cet ouvrage favorise l'autonomie du lecteur et l'incite à approfondir ses connaissances théoriques et pratiques tant en probabilité que sur les méthodes statistiques.Sur commandeCOMMANDER29,00 € -

Statistiques sans maths pour psychologues. SPSS pour Windows, QCM et exercices corrigés, 2e édition
Dancey Christine P. ; Reidy John ; Gauvrit NicolasSuivant un plan très efficace, Statistiques sans maths pour psychologues est conçu pour exposer de manière claire et didactique les concepts et techniques clés en statistiques, sans faire appel à des connaissances avancées en mathématiques. Il accorde une grande place à la compréhension de l'utilisation des statistiques, des résultats et de leur interprétation, plutôt qu'à la formalisation mathématique, aussi bien pour la présentation des concepts que pour l'utilisation du logiciel SPSS. Fondamentalement tourné vers la pratique, il donne ainsi aux étudiants le bagage nécessaire pour comprendre les articles scientifiques, mais aussi pour analyser et interpréter des données de manière autonome. Directement conçu pour les étudiants, cet ouvrage très pédagogique propose de nombreux exercices et activités qui leur permettent de mettre en pratique les notions abordées et de manipuler le logiciel SPSS par eux-mêmes. Il éclaire la théorie par de nombreux exemples amusants, afin de faire de l'apprentissage des statistiques une expérience agréable à la portée de tous. Il est ainsi le compagnon indispensable de l'étudiant de premier cycle en psychologie. Cette nouvelle édition a été entièrement mise à jour. Elle détaille pas à pas l'usage de la dernière version du logiciel de calcul statistique SPSS et mobilise de nombreux nouveaux exemples issus de la littérature scientifique la plus récente.ÉPUISÉVOIR PRODUIT49,90 €
