Date post: | 25-Feb-2018 |
Category: |
Documents |
Upload: | asmaa-ezzar |
View: | 234 times |
Download: | 0 times |
of 31
7/25/2019 Rapport DataMining
1/31
Table des abrviations
7/25/2019 Rapport DataMining
2/31
Liste des fgures
2
7/25/2019 Rapport DataMining
3/31
Sommaire
3
7/25/2019 Rapport DataMining
4/31
Rsum
4
7/25/2019 Rapport DataMining
5/31
Introduction
5
7/25/2019 Rapport DataMining
6/31
6
7/25/2019 Rapport DataMining
7/31
CRISP-DM
CRISP-DM est un modle de processus qui ofre un aperu du c!cle de
"ie du Data Minin#$ Il comporte si% p&ases qui sont la compr'&ension du
pro(lme) la compr'&ension des donn'es) la pr'paration des donn'es) la
mod'lisation) l*'"aluation et le d'ploiement$
Phase 1 Com!rhension du !robl"me
+ace , l*e%pansion de l*industrie cin'mato#rap&ique) un #rand d'
"isant , a%er les d'cisions sur les (esoins des consommateurs poussent lesdif'rentes industries , adapter au mieu% leurs strat'#ies$
Par ailleurs) la comple%it' d*une prise de d'cision (as'e sur un lm)
.acteur 'tant trs su(/ecti.) n'cessite une (onne mod'lisation an de
#arantir l*a(outissement au% r'sultats con"oit's$
C*est dans cette optique que l*anal!se des '"aluations de lms prend
tout son sens) et que la pr'"ision de leurs re"enus de"ient primordiale$ 0otre
'tude concerne pr'cis'ment ces deu% aspects 1 une anal!se descripti"e
d'taill'e des '"aluations des productions cin'mato#rap&iques ainsi qu*une
'tude pr'dicti"e port'e sur les re"enus #'n'r's$
nn) et .ace , une (ase de donn'es de comportant
enre#istrements de lms et de re"enus) 4 et 532 enre#istrements de
directeurs et d*acteurs respecti"ement) 2 #enres) 2 pa!s) ainsi que
75557 '"aluations) le Data Minin# s*a"re plus que n'cessaire pour mettre
en '"idence des in.ormations dissimul'es par le "olume de donn'es et est
indispensa(le dans le (ut d*e%trapoler de nou"elles in.ormations , partir des
donn'es pr'sentes$
Conclusion de la premire phase :
7/25/2019 Rapport DataMining
8/31
Il a 't' question dans cette partie de se penc&er sur la compr'&ension
du pro(lme , tra"ers la description de son conte%te #'n'ral) puis la
d'termination des o(/ecti.s strat'#iques et op'rationnels du Data Minin#$
Phase # Com!rhension des donnes
Dans cette 'tape) il est question d*'tudier les donn'es disponi(les pour
le processus de Data Minin#$ Cette 'tude comporte trois sous-p&ases
.ondamentales sui"antes 1
-La collecte de donnes Il s*a#it de traiter les entr'es de lms
pro"enant de l*IMD( 8Internet Mo"ie Data(ase 1 par e%cellence la (ase
de donn'es cin'mato#rap&iques d*internet9 et des s!stmes de
critique de lm si#n's Rotten :omatoes$Ces donn'es sont stoc;'es dans di"ers c&iers 1
- Mo"ies$dat 1 contenant des in.ormations sur les lms de la (ase
de donn'es$- Mo"ie
7/25/2019 Rapport DataMining
9/31
-
La descri!tion des donnes Passant par le parcours des donn'es
et l*'la(oration du dictionnaire de donn'es ci-dessous$
Conclusion de la seconde phase :
7/25/2019 Rapport DataMining
10/31
Dans cette partie) nous nous sommes penc&'s sur l*'tude des donn'es
disponi(les pour le Data Minin#$ Cette 'tude a 't' 'ta(lie en trois 'tapes ,
sa"oir la collecte) la description et l*e%ploration des donn'es$
Phase & Pr!aration des donnes
>a p&ase de pr'paration des donn'es en#lo(e toutes les acti"it's de
construction du /eu de donn'es nal , partir des donn'es (rutes de d'part$
- Collecte des donnes initiales - 'etto(age de donnes
7/25/2019 Rapport DataMining
11/31
Phase ) Modlisation
Cette p&ase consiste , s'lectionner et , tester dif'rentes tec&niques
de mod'lisation sur les donn'es c&oisies an d*optimiser le modle ou les
connaissances o(tenues par ces tec&niques$ Dans notre cas) nous a"ons
opt' d*illustrer le c?t' descripti. "isant , anal!ser les '"aluations au tra"ers
d*une mod'lisation @-means et d*une 'tude d*un A Bolden #e 8E#e id'al9
et de mod'liser le pro(lme pr'dicti. d*o(ser"ation des re"enus a"ec 2
al#orit&mes 8R'seau% de neurones F r(res de d'cision9) le tout sous SPSS
Modeler$
1*+nal(se descri!tive ,-means
0otre modle #'n'r' , partir d*une .usion de donn'es aupara"ant ltr'es et
d'(arrass'es de toute in.ormation non utile nous permet dans un premierlieu de .ait l*audit de qualit' sur ces donn'es) ainsi que la classication par @-
means aprs traitement des "aleurs manquantes$
7/25/2019 Rapport DataMining
12/31
>*audit nous con.re toute in.ormation de qualit' et d*'tendue sur c&aque
donn'e utilis'e ainsi qu*un #rap&e de "isualisation de la r'partition de
c&acune$
0ous remarquons que le nom(re de A ratin#s "alides est de 5 alors que
le nom(re d* A ID "alides est de 1 ce qui implique une n'cessit' de
traitement de "aleurs manquantes$
2
7/25/2019 Rapport DataMining
13/31
>a #ure ci-dessus d'taille le processus de A mer#in# 8.usion9 des donn'es
issus de c&iers dif'rents) et ce en emplo!ant uniquement l*identiant
comme cl' de .usion$
>a .enetre ce-dessus) reli' au 0ode A t!pe nous a permis de c&oisir les
t!pes de donn'es et leur direction par rapport au 0ode A @-means 1 touteles entr'e sont en direction A in $
3
7/25/2019 Rapport DataMining
14/31
Pour le node A ;-means ) on a c&oisis 5 puis 4 clusters) et on l*a e%ecut' en
mode A %pert $
>es #ures ci-dessous montrent les r'sultats o(tenus 1
4
7/25/2019 Rapport DataMining
15/31
n premier lieu) nous a"ons .ait une classication A @-means par rapportau% '"aluations des utilisateurs a"ec 5 clusters) nous remarquons que le
cluster 4) cluster 3 et le cluster restent pr'sentent des caract'ristiques
sem(la(les) et cette classication ne permet pas de .ormuler une
dif'renciation net et claire entre les 5 clusters
5
7/25/2019 Rapport DataMining
16/31
"ec un A ;-means , 4 cluster nous constatons que nous pou"ons classiernos '"aluations par rapports au% lms en 4 #roupes 1
-Cluster 1 repr'sente des lms a"ec un ratin#s et scores ele"'s que ce soit
pour les '"aluations des critiques) des top critiques) ou de l*audiance 1 ainsi
ce sont des lms appr'ci' par tout le monde$
-Cluster 2 1 d'nit une cat'#orie appr'ci' par tout le monde en de&ors des
top critiques "us qu*ils ont o(tenus un score mo!en par ces derniers$
-Cluster 3 1 d'nit une cat'#orie de lms non appr'ci' par toutes cat'#ories
d*utilisateurs con.ondues$
-Cluster 4 1 d'nie une cat'#orie non appr'ci' par une #rande parties des
utilisateurs 8audience et critiques9 mais a!ant tout de mGme r'ussis a
int'resser les top critiques qui lui ont ofert un score mo!en$
#*+nal(se Descri!tive + la recherche du .olden
+ge /
6
7/25/2019 Rapport DataMining
17/31
0otre deu%ime anal!se descripti"es des donn'es) nous a"ons proc'd' tout d*a(ord
a une pr'paration de donn'e pour discr'tisation des donn'es continues 8 ann'e de
sortie d*un lm) et ratin#s 9$ Ce qui nous a permis d*anal!ser les donn'e par rapport
a un a%e temporelle) an de "'rier la t&'orie d*e%istence d*un A Bolden #e pour
les lms) ou) quel que soit le nom(res des '"aluations o(tenues) le nom(res
d*utilisateurs satis.ait par rapport , l*ensem(le des lms d'passe les nom(res des
utilisateurs indif'rents ou insatis.aits$
>a #ure ci-dessus montre la mod'lisation sur SPSS Modeler$
Hn a commenc' par l*e%traction des donn'e depuis la source A mo"ies$dat puis
nous a"ions discr'tis' les donn'es et remplac' les donn'es manquante par la
mo!enne des "aleurs$ Par la suite nous a"ions #'n'r' la sortie sui"ante 1
7/25/2019 Rapport DataMining
18/31
0ous constatons par la suite) l*e%istence d*un Bolden #e pour les lms 1 de la
d'cade 3 /usqu*au la d'cade
&*+nal(se Prdictive +rbres de dcision
0otre anal!se pr'dicti"e consiste en la pr'diction des cat'#ories re"enues des lms8donn'e continue pr'ala(lement discr'tis' en 4 cat'#ories 1 Re"enues d'passant
5M) Re"enus entre 5M et M) Re"enus entre M et 4M) Re"enus
in.'rieur , 4M9$
Cette pr'diction est .aite a partir des '"aluations) et scores des lms sur des site
Je( tel Internet Mo"ies DataKase 8IMDK9 ou Rotten :omattoes 8R:9$
Cette anal!se nous permettrai d*'la(orer une m't&ode de pr'diction des scores de
lms a"ant leur sorties au marc&' mais /uste aprs la sortie des A s!nopsis et
leur pu(lication sur des sites Je( tel R: et IMDK et a partir des r'actions des
utilisateurs par rapports a ces A s!nopsis ou A (andes d*annonces $
n premier lieu cette anal!se pr'dicti"e est .aite en a!ant recours au% ar(res de
d'cisions comme le montre la #ure ci-dessous repr'sentant la mod'lisation sur
SPSS Modeler 1
7
7/25/2019 Rapport DataMining
19/31
0os donn'es en 't' r'parties) comme le montre la #ure ci-dessous) en donn'e
d*apprentissa#e 85L9 et donn'es de test 85L9$
n appliquant l*al#orit&me de l*ar(re de d'cision C5$ nous o(tenons) un ar(re de
d'cisions comme le montre les deu% #ures ci-dessous$
7/25/2019 Rapport DataMining
20/31
0otre ar(re a une pro.ondeur de ni"eau) comme on le "oit ci-dessous 8r'sultat du
node A anal!sis 9
2
7/25/2019 Rapport DataMining
21/31
Ci-dessous un aperu de l*al#orit&me o(tenue 1
Brace au node A anal!sis nous o(tenons les in.ormations sui"antes sur le testin#
de l*al#orit&me o(tenue 1
Dans le cas d*equili(ra#e de l*ensem(le de donn'e 8a"ec une "aleur al'atoire de
$3 pour les re"enus sup'rieur a 5M 9 $ >a #ure ci-dessous montre que 4)32L
des r'sultat o(tenue aprs aplication de l*al#orit&me appris sur l*ensem(le de test
est correct) alors qu*on a un tau% d*erreur de 5L$
2
7/25/2019 Rapport DataMining
22/31
>a #ure ci-dessous montre les r'sultats o(tenus aprs application de l*al#orit&mesd'duit sur l*ensem(le de test dans le cas de non 'quili(ra#e de donn'es$ Hnconstate que la per.ormance de ce dernier est meilleure que celle de l*al#orit&mea"ec 'quili(ra#e "u qu*il repr'sente un tau% d*erreur de 3L$
>a #ures sui"antes sont celles de la matrice de coincidences dans les deu% cas
8a"ec et sans 'quili(ra#e9 on remarque a!ant o(tenue de meilleur per.ormancespar rapport a la cat'#orie A re"enue 5M dans le cas d*apprentissa#e aprs'quili(ra#e de donn'es 1
22
7/25/2019 Rapport DataMining
23/31
)*+nal(se !rdictive Rseau% de neurones
>*o(/ecti"e de cette anal!se est ) l*usa#e d*une deu%ime m't&ode N notamment les
r'seau% de neurones- pour la pr'diction des re"enues d*un lm a partir des
r'actions des utilisateurs sur les sites IMDK et R:$ >a #ure ci-dessous montre la
mod'lisation sur SPSS Modeler 1
23
7/25/2019 Rapport DataMining
24/31
0ous partitionnant cette .ois notre ensem(le de donn'e) aprs pr'partion) en 3sous ensem(le comme le montre la #ure ci-dessous 1
0ous c&oisissant par la suite) d*applique l*al#orit&me de reseau% de neurones sur
l*ensem(le d*apprentissa#e et cela en mode %pert$
24
7/25/2019 Rapport DataMining
25/31
Brace au node A anal!sis nous o(tenons un #rap&ique d'taillant la contri(ution de
c&aque "aria(le dans la pr'diction des r'sultats comme le montre la #ure
sui"ante 1
25
7/25/2019 Rapport DataMining
26/31
prs application des r'sultats d*apprentissa#e sur l*ensem(le de test nouso(tenons un tau% de r'ussite de 6L comme on le constate dans le #uresui"ante 1
26
7/25/2019 Rapport DataMining
27/31
>*application de l*al#orit&me o(tenue sur l*ensem(le de "alidation nous permet
d*o(tenir la matrice de coincidence sui"ante 1
Phase 0 valuation des rsultats
ce stade nous pou"ons constater que les modles cr''s sont tec&niquement
corrects en .onction des critres de r'ussite du Data Minin# et que l*ar(re de
d'cision reste le meilleur en terme de pr'cision comme le montres les trois #ures
sui"antes 1
2
7/25/2019 Rapport DataMining
28/31
>a cour(e correspondante , la "aleur pr'dite de modalit' A 5M a"ec l*ar(re
de d'cision C5$ s*'loi#ne le plus de la li#ne de r'.'rence et a une pente
strictement positi"e$
>*'tude propos'e nous mne ainsi) "ers une pr'diction des re"enues des lms en
proc&aine sortie) a partir des r'actions des utilisateurs sur Internet Mo"ies DataKase
et Rotten :omattoes$
Conclusion de la 0"me!hase
Dans cette partie) nous a"ons d*une part '"alu' les r'sultats o(tenus de notre
'tude) et d*autre part c&oisi le meilleur modle en terme de pr'cision et de
per.ormance$
27
7/25/2019 Rapport DataMining
29/31
Phase 2 D!loiement
n #'n'ral) le d'ploiement est le processus consistant , utiliser les nou"elles
connaissances pour apporter des am'liorations au sein de l*entreprise$ Dans notre
cas) il consiste , appliquer le modle c&oisit- celui de l*ar(re de d'cision C5$- , de
nou"elle donn'es sur les sites d*interaction , propos des lms en proc&aines sortie)
et la pr'diction en cons'quent des re"enue des lms en question$
Ci-dessous) une e%emple de maquette qu*on a mod'lis' sous SPSS Modeler et qui
pr'sente un e%emple de d'ploiement de notre modle$
2
7/25/2019 Rapport DataMining
30/31
Conclusion
Pour conclure) notre pro/et consiste principalement a mettre en Ou"re les
tec&niques de DataMinin# sur la (ase de la m't&odolo#e CRISP-DM pour la
pr'diction des re"enues de lms a partir des r'action des internautes sur IMDK et
Rotten :omattoes) principales siteJe( de ratin# et scorin# des lm en proc&aine
sortie$
0ous a"ions '#alement .ait une anal!se descripti"e sur les donn'es e%traite des
deu% site Je( sit' ci-dessus) a nous a permit de .aire un clusterin# des lms selon
les '"aluations et scores des dif'rents internautes) comme a nous a permit de
"'rier la t&'orie d*e%istence d*un Bolden #e pour les lms$
0ous a"ons cr'') suite a notre anal!se pr'dicti"e) des modles pr'dicti.s qui se sont
r'"'l's ecaces$
0ous a"ions r'ussis a trou"er un modle traduisant la pr'diction de la r'ussite ou
ec&ec d*un lm et en perspecti"e) on pourrait incluer d*autres 'l'ments a notre
anal!se) tel la prise en compte du t!pe de lm) directeurs et acteurs) locations etpa!sQ etc$
3
7/25/2019 Rapport DataMining
31/31
Phase 2 3 D!loiement