• Daniel Hunyadi

Managementul cunoştinţelor – Concepte, modele şi tehnici Data Mining

În prezent se constată tendinţa de realizare a unei sinteze între diversele abordări privind cunoștințele, sub forma unor teorii ale organizaţiilor bazate pe cunoştinţe. Conform acestora, cunoştinţele reprezintă principala resursă a organizaţiilor şi, de aceea, managementul cunoştinţelor (Knowledge Management - KM) prezintă o deosebită importanţă. Principalele funcţii ale managementului cunoştinţelor în cadrul unei organizaţii sunt:

  • Identificarea cunoştinţelor, presupune determinarea principalelor tipuri de cunoştinţe care permit realizarea diferitelor activităţi în cadrul organizaţiei;

  • Formalizarea cunoştinţelor identificate, reprezintă procesul de reprezentare a cunoştinţelor neexplicite şi de documentare a tuturor categoriilor de cunoștințe din cadrul organizaţiei economice;

  • Evaluarea cunoştinţelor, în sensul stabilirii relevanţei, importanţei şi acurateţei cunoştinţelor din cadrul organizaţiei economice. În acest context, o deosebită importanţă o are auditul capitalului intelectual al organizaţiei. Acesta permite atât identificarea cât, mai ales, evaluarea cunoştinţelor individuale şi sociale din cadrul organizaţiei. În acest scop se realizează, la nivel individual, evaluarea cunoştinţelor de specialitate ale angajaţilor, evaluarea personalităţii, motivaţiei, creativităţii, a spiritual managerial şi a aptitudinilor legate de utilizarea tehnologiilor informaţionale;

  • Memorarea, prin care se constituie baza de cunoştinţe a organizaţiei;

  • Distribuirea automată a cunoştinţelor către angajaţii care au nevoie de aceste cunoştinţe;

  • Utilizarea şi valorificarea cunoştinţelor, în procesul de desfăşurare a diferitelor activităţi, de rezolvare a problemelor, în special a celor decizionale;

  • Crearea de noi cunoştinţe, prin cercetare, experimentare etc.;

  • Protecţia cunoştinţelor.

Figura 1. Arhitectura unui sistem de management al cunoştinţelolr

În figura 1 este prezentată o arhitectură pentru sistemul de Management al Cunoştinţelor la nivelul unei organizaţii. În această figură, compartimentele/departamentele din cadrul structurii organizatorice precum şi diferite categorii de utilizatori sunt reprezentate prin dreptunghiuri: clienţi (KC1, KC2,…KCn), indivizi, grupuri de experţi. Elipsele sunt utilizate pentru a desemna diferite categorii de tehnologii informaţionale (DM.TM - Text Mining, CDB - Multitenant Container Database, KDB - Column-store Database), suport pentru realizarea sistemului pentru managementul cunoştinţelor, depozite de date (DW - Data Warehouse) etc. Liniile desemnează conexiunile dintre diferitele tehnologii informaţionale şi conexiunile intranet.

Data mining, cunoscută ca şi Descoperirea Cunoştinţelor în baze de date (Knowledge Discovery in Databases - KDD), este un instrument modern şi puternic al TI & C (Tehnologia Informaţiei şi Comunicaţiilor), instrument ce poate fi folosit pentru extragerea unor informaţii utile dar încă necunoscute. Acest instrument automatizează procesul de descoperire a unor relaţii şi combinaţii în datele brute, iar rezultatele găsite ar putea fi încadrate într-un sistem automat de suport a deciziei.

Metodele data mining provin din calculul statistic clasic, din administrarea bazelor de date şi din inteligenţa artificială. Ele nu înlocuiesc metodele tradiţionale ale statisticii, ci sunt considerate a fi extinderi ale tehnicilor grafice şi statistice. Rezultatele metodelor data mining vor trebui supuse în mod sistematic unei supravegheri umane deoarece aplicaţiilor software le lipseşte intuiţia umană pentru a face deosebirea între ceea ce este relevant şi ceea ce nu este.

Structura tipică a datelor potrivită pentru data mining conţine observaţiile plasate pe linii iar variabilele plasate pe coloane. Domeniile sau intervalele de valori pentru fiecare variabilă trebuie să fie definite precis, evitându-se cât mai mult posibil exprimările vagi.


Principalele etape în procesul data mining sunt:

  1. Definirea problemei - constă în achiziţia unor cunoştinţe despre starea iniţială, precum şi despre scopul aplicaţiei, stabilirea obiectivelor;

  2. Construirea bazei de date - consolidarea unei singure baze de date cu date „curate” care să ofere posibilitatea construirii unui model corespunzător, reducerea dimensiunii depozitului de date, înlăturarea zgomotului, stabilirea modului de înlocuire a datelor care lipsesc;

  3. Exploatarea datelor - constă în înţelegerea datelor, vizualizarea lor, crearea unor tabele pivot care să ofere o imagine clară a consistenţei bazei de date;

  4. Pregătirea datelor - selectarea variabilelor care vor fi părţi componente ale modelului predictiv; ideal ar fi luarea în considerare a tuturor variabilelor, în vederea obţinerii celei mai bune predicţii. Acest lucru este greu de realizat deoarece numărul mare de variabile determină creşterea timpului de construire a modelului şi scăderea puterii de predicţie a modelului rezultat;

  5. Construirea modelului - este un proces iterativ; astfel, pentru a ajunge la o variantă considerată optimă, se vor relua anumiţi paşi şi se vor modifica date. Pentru testare se recurge la un istoric (date despre clienţi şi evoluţia comportamentului lor). Un model este considerat finalizat atunci când se încheie etapa de antrenare şi testare;

  6. Evaluarea modelului - se evaluează acurateţea rezultatelor. De asemenea eficienţa modelului va fi măsurată de anumiţi indicatori;

  7. Interpretarea rezultatelor şi îmbunătăţirea modelului - din punct de vedere al utilizatorului, această etapă este decizională; dacă acesta nu este mulţumit de rezultat, poate relua oricare dintre fazele precedente.

În funcţie de rezultatele obţinute, se face o analiză şi se iau decizii cu privire la aplicarea modelului şi la efectele benefice aduse instituţiei, a costurilor estimate şi a profitului realizat.

Pregătirea datelor pentru a le putea fi aplicate instrumentele data mining, constă în:

a) Preprocesare – eliminarea datelor care nu sunt necesare:

- se elimină datele care nu sunt consistente (unităţilor de măsură);

- se elimină datelor eronate;

- se elimină valorilor extreme (outliers);

b) Integrarea datelor – combinarea unor variabile;

c) Transformarea variabilelor:

- prin standardizare;

- prin trecere la scală logaritmică;

d) Separarea bazei de date în trei categorii de date:

- Categoria pentru antrenament;

- Categoria pentru validare;

- Categoria pentru testare.

e) Folosirea statisticilor descriptive clasice simple: media, mediana, amplitudinea, abaterea standard, cuartilele;

f) Folosirea diagramelor simple: histograme ale frecvenţelor, box plot-uri, diagrame cu bare, diagrame radiale.

Data mining-ul implică aplicarea tehnicilor de transformare a datelor în informaţii. Totodată data mining reprezintă interfaţa critică dintre cunoştinţele sintetice sau tiparele generate de către maşini şi cunoştinţele semantice cerute de oameni pentru raţionamentele cu privire la lumea reală.

Activităţile primordiale ale data mining-ului sunt: clasificarea/predicţia, estimarea, segmentarea, vizualizarea şi optimizarea. În literatura de specialitate sunt precizate două tipuri de modelări în cadrul data mining-ului: modelarea supervizată şi modelarea nesupervizată.

Data mining-ul nesupervizat este folosit pentru situaţiile în care modelele particulare sunt necunoscute. Într-o bază de date care conţine cursurile predate studenţilor, de exemplu, se cunoaşte foarte puţin despre cursurile luate de obicei ca un grup, sau ce tip de cursuri este asociat cu un anumit tip de student. Data mining-ul nesupervizat este des folosit pentru a studia şabloane şi pentru a descoperii şabloane ascunse, pentru a înţelege, a clasifica, a codifica obiectele de studiu înainte de a se aplica teorii.

Data mining-ul supervizat, este folosit cu înregistrări care au o ieşire cunoscută. O bază de date pentru absolvire, de exemplu, conţine atât înregistrări ale studenţilor care şi-au finalizat studiile, cât şi înregistrări ale studenţilor care au abandonat studiile. Data mining-ul supervizat este folosit pentru a studia comportamentul academic al ambelor categorii de studenţi, cu intenţia de a adăuga şabloane de comportament istoricului academic.

Prin natura sa, procesul data mining este un proces iterativ, deoarece rezultatele de la nivelele superioare pot determina revizuiri ale activităţilor de la nivelele inferioare (figura 2).



Figura 2. Etapele procesului data mining

Metodele data mining „de învăţare” pot fi grupate în două categorii: cele nesupervizate, respectiv cele supervizate.

Metodele de învățare nesupervizată includ următoarele:

  1. Analiza Componentelor Principale (Principal Component Analysis). Scopul ei este de a reduce dimensionalitatea datelor multi-variate prin „integrarea” variabilelor corelate, transformând liniar variabilele iniţiale în variabile necorelate între ele.

  2. Analiza Factorială (Factor Analysis). Scopul ei este de a extrage un număr mic de factori ascunşi care explică cea mai mare parte a variabilităţii comune şi determină corelaţiile observate între datele iniţiale.

  3. Analiza Clasificării (Cluster Analysis). Scopul ei este de a grupa cazurile (observaţiile) în clustere (grupuri, categorii).

Principalele metode de învăţare supervizată sunt următoarele:

  1. Regresia Liniară Multiplă. Scopul ei este de a descrie asociaţiile dintre două seturi de variabile, prin intermediul unor formule liniare. Aceste formule sunt folosite ulterior pentru a prezice valorile unor variabile continue „de răspuns”, odată ce sunt cunoscute valorile tuturor variabilelor „predictor”.

  2. Regresia Logistică. În acest tip de regresie „răspunsul” este o variabilă binară sau ordinală (nu una continuă).

  3. Reţelele Neurale. Sunt folosite pentru clasificare. O reţea neurală conţine de obicei mult mai mulţi parametri decât un model statistic clasic, este nevoie de mult mai mult timp de antrenare, iar rezultatele obţinute nu pot fi interpretate cu uşurinţă.

  4. Analiza Funcţiilor Discriminante. Această metodă este folosită pentru a determina care dintre variabilele predictor discriminează cel mai bine între mai multe grupuri care sunt formate natural.

Modelele identificate de o metodă data mining vor putea fi transformate în cunoştinţe, însă după o validare corespunzătoare; apoi, cunoştinţele vor putea fi folosite ulterior pentru a fundamenta luarea deciziilor.

Analiza Factorială

Analiza factorială este folosită din punct de vedere data mining pentru rezolvarea următoarelor două probleme:

  • Reducerea numărului de atribute ale obiectelor în vederea măririi vitezei de procesare a datelor;

  • Detectarea structurilor ascunse în relaţiile dintre date, în vederea clasificării atributelor obiectelor.

Acest termen a fost introdus de către Thurstone în 1931 şi se referă la o varietate de tehnici statistice utilizate în scopul reprezentării unui set de variabile în funcţie de un număr mai redus de variabile ipotetice, numite factori.

În unele situaţii avem motive să credem că variabilele măsurate sunt corelate între ele deoarece sunt influenţate de unul sau mai mulţi factori necunoscuţi, numiţi factori ascunşi. Analiza factorială este o tehnică al cărui scop este extragerea unui număr mic de factori ascunşi care sunt responsabili pentru corelaţiile dintre variabile. Principalul rezultat al acestei tehnici, aplicată fie plecând de la matricea datelor, fie plecând de la matricea de corelaţie, constă în gruparea variabilelor în aşa fel încât variabilele influenţate de un anumit factor să fie corelate mai puternic între ele decât cu variabilele influenţate de alţi factori.

Iniţial se accepta ideea că toate variabilele măsurate ar putea fi asociate cu orice factor ascuns. După aplicarea tehnicii, fiecare variabilă măsurată va fi exprimată ca o combinaţie liniară de câţiva factori ascunşi.

În implementarea metodei se întâlneşte termenul de comunalitate (communality). Comunalitatea unei variabile măsurate este exact proporţia din varianta ei ce poate fi atribuită factorilor ascunşi. Evident, comunalitatea este un număr între 0 si 1, iar valorile apropiate de 1 indică faptul că variabila este „bine explicată” de factorii ascunşi.

Încărcările factorilor reprezintă coeficienţii de corelaţie între variabilele măsurate şi factorii ascunşi. Încărcările mai mari decât 0.7 în valoare absolută sunt considerate semnificative. Încărcările semnificative pentru un factor ascuns dat ar putea fi folosite pentru a obţine o interpretare a acelui factor.

Un exemplu simplu pentru ilustrarea rolului de reducere a datelor şi identificarea structurii relaţiilor, obţinut prin utilizarea analizei factoriale este cel privitor la procesul de construire a tipologiei consumatorului standard al unui supermarket. Astfel, în construirea bazei de date a consumatorilor pot apărea simultan variabile ca venitul anual şi impozitul anual. Deoarece cele două atribute sunt corelate prin formula de deducere a impozitului din venituri, este suficient numai unul, celălalt fiind redundant, deci poate fi îndepărtat fără pierdere de informaţii. Datorită faptului că cele două variabile sunt corelate, relaţia dintre ele este foarte bine rezumată de dreapta de regresie ce trece prin punctele generate de perechile de date. Astfel, reducem cele două variabile la un singur factor, acesta fiind o combinaţie liniară a celor două variabile iniţiale.

Analiza Componentelor Principale

Analiza componentelor principale poate fi privită ca o tehnică de analiză factorială, atunci când dispersia totală a datelor este luată în considerare. Ea are ca scop reducerea numărului de variabile utilizate iniţial, luând în considerare un număr mai mic de variabile reprezentative şi necorelate. Ca o consecinţă a acestui demers se obţine o clasificare a variabilelor şi a cazurilor.

Din cauza dificultăţii evidente a vizualizării spaţiilor multi-dimensionale având dimensiuni p>=4, analiza componentelor principale este folosită cel mai mult pentru a reduce pe cât posibil dimensionalitatea a p variabile la doar două sau trei dimensiuni. Această metodă sumarizează variabilitatea iniţială a datelor privind cele p variabile iniţiale în câteva componente necorelate între ele, numite componente principale. Fiecare componentă principală este extrasă ca o combinaţie liniară din variabilele iniţiale. Metoda constă în extragerea celui mai mic număr de componente care preiau cea mai mare parte a variantei datelor iniţiale, adică în sumarizarea datelor iniţiale cu o pierdere minimă de „informaţie”.

Prima componentă principală extrasă este acea combinaţie liniară de variabile care preia maximul posibil din varianta datelor iniţiale. Cea de-a doua componentă principală preia mai puţine variante şi aşa mai departe. Dacă primele câteva componente principale preiau 80% sau mai mult din varianta datelor iniţiale, atunci scopul reducerii dimensionalităţii va fi atins.

Calculele sunt făcute prin algoritmi ai algebrei liniare, aplicaţi fie matricei dreptunghiulare a datelor originale, fie matricei pătratice a coeficienţilor de corelaţie. În teoria matematică ce fundamentează aceşti algoritmi se foloseşte termenul de valoare proprie a unei matrice. Valorile propri măsoară cantitatea de variantă „explicată” de fiecare componentă principală. Ele descresc odată cu indexul componentei, prima componentă principală având valoarea proprie maximă. Pe de altă parte, suma valorilor proprii este egala cu p (numărul variabilelor iniţiale). De obicei sunt reţinute doar componentele principale ce au valorile proprii mai mari decât 1. Valorile propri exprimă „importanţa” componentelor principale.

Extrem de important este studiul coeficienţilor de corelaţie (loadings) dintre variabilele iniţiale şi primele două componente principale. Coeficienţi puternici arată că variabilele corespunzătoare pot fi considerate responsabile pentru variaţia datelor. Din contră, dacă o variabilă nu se corelează cu nici o componentă principală, sau se corelează cu componentele ce au valori proprii mici, aceasta sugerează că variabila în cauză are o contribuţie minoră la varianta setului de date. Astfel de variabile „neimportante” vor fi eliminate, în scopul de a simplifica analiza de ansamblu.

Analiza factorială este similară cu analiza componentelor principale, ambele având ca scop reducerea numărului mare de variabile măsurate într-un număr mai mic de factori ascunşi respectiv componente principale. Ele diferă totuşi ca utilitate. În analiza factorială, numărul mic de factori este identificat în aşa fel încât să explice de ce variabilele măsurate sunt corelate între ele, în timp ce în analiza componentelor principale, componentele principale sunt identificate în aşa fel încât să preia cât mai mult din varianta prezentă în datele măsurate.

Analiza Clasificării

Această metodă statistică este folosită pentru a grupa date multi-dimensionale („puncte” ce reprezintă cazuri sau observaţii) în grupe (clusters) definite algoritmic. Această metodă este utilă pentru sumarizarea unor cantităţi mari de informaţie, fiecare grupă reprezentând mai multe puncte având caracteristici similare. Clusterele distincte nu se suprapun (sunt disjuncte).

Analiza clasificării constă într-o colecţie de algoritmi ce exploatează mai multe euristici fundamentate, care se bazează în principal pe experienţa noastră „vizuală” în gruparea punctelor în „nori de puncte”.

În general, pentru a putea folosi un algoritm de clasificare, este nevoie de:

  1. Precizarea unei distanţe între punctele unui spaţiu multidimensional. Cele mai cunoscute distanţe între puncte sunt:

  2. Euclidiană;

  3. Manhattan;

  4. Pearson;

  5. b) O strategie de alegere a punctului reprezentativ (a „centrului”) pentru orice grupare de puncte. Cei mai mulţi oameni au tendinţa de a alege media aritmetică („centrul de greutate”);

  6. O distanţă între două grupe de puncte. Cele mai folosite asemenea distanţe iau în considerare distanţa între puncte aleasă anterior; acestea sunt:

  7. Distanţa între „centre” (în algoritmul Ward);

  8. Distanţa între cei mai apropiaţi vecini („single linkage”);

  9. Distanţa între cei mai depărtaţi vecini („complete linkage”).

Odată ce au fost efectuate alegerile, un algoritm ierarhic de clasificare va funcţiona în felul următor:

  • Pasul 1. Fiecare punct este considerat ca grup separat;

  • Pasul 2. Cele mai apropiate două grupe sunt amalgamate într-o grupare mai mare. Acest pas este repetat pâna când toate punctele au fost grupate într-o grupare finală. Schema de amalgamare este reprezentată printr-o dendrograma;

  • Pasul 3. Se aplică o procedură „de tăiere” asupra dendrogramei; în acest fel se identifică numărul „obiectiv” de grupe (clusters), apoi componenţa fiecăreia.

În clasificarea ierarhică nu se permite nici un fel de altă suprapunere a două grupe cu excepţia incluziunii unei grupe în cealaltă. În plus, din cauza numărului mare de distanţe care ar trebui calculate, aceşti algoritmi nu sunt adecvaţi pentru seturi mari de puncte.

Prin contrast, în clasificarea disjunctă numărul de grupe va trebui ales dinainte. Apoi:

  • Pasul 1. Toate punctele sunt asignate arbitrar unor grupe.

  • Pasul 2. Unul dintre puncte este reasignat altei grupe, luând în considerare similaritatea sa cu punctele acelei grupe. Acest pas este repetat pâna când toate punctele sunt asignate „optim”.

Algoritmii de clasificare sunt mai eficienţi pentru seturi mari de puncte. Cel mai cunoscut algoritm de clasificare disjunctă este cel al k-mediilor (k-means). În acesta, reprezentantul fiecărei grupe este obţinut din media punctelor (cazuri, observaţii) care sunt asignate acelei grupe. Initial este selectat un set de puncte, numite „seminţele grupelor” (cluster seeds) ca o primă alegere a centrelor grupelor. Apoi, la fiecare pas, se execută maximizarea distanţei globale între grupele distincte, în aşa fel încât să se reducă varianta din cadrul grupelor, iar centrele să se deplaseze spre o poziţie stabilă. Algoritmul se opreşte atunci când nu se mai detectează nici o modificare în poziţia centrelor.

Regresia Liniară Multiplă

În cazul regresie liniare multiple avem de a face cu cel puţin trei variabile, dintre care una este dependentă iar celelalte sunt independente, predictoare. Această metodă de învăţare supervizată este cea mai larg folosită astăzi. Este utilizată pentru a studia asocierea dintre două seturi de variabile

O noţiune importantă în folosirea metodei regresiei liniare multiple este cea de reziduu. Reziduurile sunt exact diferenţele dintre valorile y observate şi valorile răspuns y ce corespund valorilor predictor xk observate.

Defectul major al regresiei liniare multiple constă în faptul că nu putem fi siguri asupra mecanismului relaţiei cauzale dintre predictori şi răspunsuri. Chiar şi relaţiile de regresie foarte semnificative nu implică deloc existenţa unor relaţii cauză-efect. Cu toate acestea, metoda regresiei liniare multiple este des folosită, iar formulele semnificative de regresie sunt creditate ca adevărate în activităţile de predicţie.

Rezultatul unei regresii liniare multiple obţinut prin folosirea setului de date de antrenament, cu alte cuvinte formula de calcul, ar putea fi validat în urma aplicării formulei asupra altui set de date şi constatării potrivirii ei. Pentru validare, graficele obţinute din setul de antrenament şi din setul de validare ar trebui să prezinte trăsături similare.

Este indicată aplicarea regresiei liniare multiple în următoarele trei situaţii:

  • Necesitatea de a înlătura posibilele efecte ale unor variabile neesenţiale privind scopul propus, atunci când se studiază relaţiile dintr-un grup de variabile;

  • Explorarea unor variabile prognostic, fără cunoaşterea prealabilă a importanţei fiecăreia dintre ele;

  • Dezvoltarea unui index prognostic pornind de la mai multe variabile explicative, în scopul prognozării variabilei dependente.


În cazul în care nu se cunoaşte dinainte care variabile predictive trebuie incluse în model, algoritmii standard utilizaţi sunt:

  1. Regresia pas cu pas anterioară (forward stepwise regression);

  2. Regresia pas cu pas posterioară (backward stepwise regression).


Algoritmul pentru regresia pas cu pas anterioară este următorul:

  1. se identifică variabila cu cel mai mare impact asupra variabilei dependente şi se introduce în model;

  2. din variabilele rămase, se găseşte variabila care are cea mai mare corelaţie (ignorând semnul) cu reziduurile modelului de mai sus şi se introduce în model;

  3. se repetă pasul b. până când se ajunge la nivelul de semnificaţie corespunzător variabilei curente introdusă în model;

  4. când nivelul de semnificaţie depășește valoarea stabilită, se opreşte procesul de introducere a predictorilor în model.


Algoritmul pentru regresia pas cu pas posterioară abordează problema din direcţia opusă, adică se iau iniţial în considerare toate variabilele şi se exclud pas cu pas cele care au semnificaţia cea mai mică. Aici modelul iniţial conţine toate variabilele, considerând că, cel puţin teoretic, toate variabilele pot fi importante. Se exclude apoi variabila cu cea mai mică influenţă asupra modelului, adică cu cel mai mare nivel de semnificaţie privind corelaţia.

Regresia logistică

Metoda regresiei liniare presupune că variabilele, atât cele predictor cât şi cele răspuns, sunt de tip continuu. Prin contrast, regresia logistică permite tratarea altor tipuri de variabile. Metoda regresiei logistice se aplică atunci când variabila de răspuns este de tip boolean (are doar două valori: adevărat/fals, da/nu, sau 1/0).

În acest caz, când variabila dependentă se referă la două valori, regresia multiplă nu mai este de folos şi se utilizează o abordare oarecum similară ca formă, dar distinctă ca sens. Astfel, în loc să se prognozeze valoarea variabilei dependente în raport cu valorile variabilelor explicative, se va prognoza o transformare a variabilei dependente. Această transformare se numeşte transformare logit, desemnată ca logit(p), unde p este proporţia de obiecte cu o anumită caracteristică. Pentru a înţelege raţiunea acestei proceduri, se poate observa că dacă se cuantifică variabila dependentă categorială utilizând valorile 1 şi 0, atunci media acestor valori, calculată pe un eşantion dat, reprezintă tocmai proporţia obiectelor corespunzătoare uneia din cele două situaţii.

Atunci când se utilizează metoda regresiei logistice, la sfârşitul calculelor se obţine valoarea logit(p)=α sub forma unei combinaţii liniare a variabilelor explicative.

Analiza Discriminant

Într-o situație tipică, un medic curant ar putea lua în considerare o serie de date privind trecutul pacientului, date pe care el le consideră importante pentru că indică dacă pacientul are şanse de a se vindeca complet, doar parţial, sau deloc. Scopul său iniţial este de a construi un model predictiv de discriminare între grupuri, bazat pe variabile predictor. Analog, în comerţ putem analiza ce caracteristici fac diferenţa în ceea ce priveşte raţiunea pentru care un cumpărător alege din mai multe categorii de produse, unul anume.

După cum se observă din exemplele de mai sus, analiza discriminant reprezintă practic o metodă de clasificare a unor obiecte în anumite clase pe baza analizei unui set de variabile predictoare.

Un asemenea model ar putea fi folosit pentru:

  • Investigarea diferenţelor dintre categoriile de observaţii;

  • Discriminarea efectivă dintre categorii;

  • Identificarea acelor variabile predictor care sunt discriminatoare.

În ambele situaţii de mai sus datele iniţiale sunt grupate natural în câteva categorii. Metodele analizei de discriminant presupun că toate variabilele predictor sunt continue şi că variabila de răspuns indică gruparea, categoria căreia îi va aparţine un nou caz.

O primă metodă este cea numită analiza de discriminant progresivă în paşi (forward stepwise discriminant analysis). Pe scurt, aceasta constă în următoarele: iniţial nici o variabilă predictor nu este inclusă în model. Apoi, la fiecare pas, sunt examinate toate variabilele predictive rămase, iar cea care contribuie cel mai mult la discriminarea dintre grupuri va fi selectată şi inclusă în model.

În metoda duală, aşa-numita analiză de discriminant regresivă în paşi (backward stepwise discriminant analysis), procedura este următoarea: iniţial toate variabilele predictor sunt incluse în model iar apoi, la fiecare pas, aceea care contribuie cel mai puţin la predicţia apartenenţei corecte la grupare este eliminată. În model vor rămâne în final doar variabilele „importante”, acelea care contribuie cel mai mult la discriminarea dintre grupe.

În ambele metode de selecţie a variabilelor prezentate mai sus, procedura pas cu pas este ghidată de o valoare care este calculată pentru fiecare variabilă predictor. Aceasta, cunoscută ca valoarea F, indică semnificaţia statistică a acelei variabile pentru discriminarea dintre grupe.

La fiecare pas, se ia în considerare şi semnificaţia predictorului anterior introdus în model. Variabila care contribuie cel mai puţin la „puterea discriminatorie” a modelului este eliminată, iar apoi variabila care nu este în model şi contribuie cel mai mult la discriminare va fi introdusă în model. Atunci când toate variabilele din model nu vor mai suferi modificări, procedura pas cu pas este oprită. Pentru a forţa oprirea procedurii, pot fi fixate dinainte praguri pentru valoarea F.

În cazul cel mai simplu, analiza de discriminant este practic echivalentă cu analiza de regresie multiplă, modelul constând în acest caz dintr-o singura formulă liniară.

Indicele celui mai mare coeficient de regresie (în valoare absolută) identifică acea variabilă care contribuie cel mai mult la predicţia apartenenţei la categoria-grupă. Formula de mai sus reprezintă funcţia de discriminare.

În cazul existenţei mai multor categorii, vor fi obţinute mai multe funcţii de discriminare. De exemplu, în cazul existenţei a trei categorii, o primă funcţie de discriminare ar putea discrimina între categoria 1 şi categoriile 2-3 combinate, iar a doua funcţie de discriminare va discrimina între categoria a doua şi a treia.

Modelele de discriminare dintre categorii vor trebui validate pe baza unor date noi, altele decât cele pe baza cărora au fost construite.

Metodele de selecție în paşi nu dau întotdeauna cele mai bune rezultate. Unele motive ar putea fi:

  • în procesul de selecţie nu sunt luate în considerare relaţiile dintre variabilele care încă n-au fost selectate;

  • nu se iau în considerare diferenţele dintre mărimea grupelor.


Datorită creşterii influenţei Tehnologiei Informaţiei şi Comunicaţiilor în lumea modernă, au fost imaginate metode noi în Data Mining. Printre aceste metode se află:

  • Aplicaţiile depozitului de date (data warehousing);

  • Analiza asocierilor coşului pieţei (market basket association analysis).

Mai multe detalii referitoare la aceste metode, vor fi date în alte articole viitoare. În acest articol s-a dorit prezentarea conceptului de data mining, care implică tehnici de transformare a datelor în informaţii şi sunt precizate două tipuri de modelări în cadrul data mining-ului: modelarea supervizată şi modelarea nesupervizată.

Bibliografie

1. Brooking A., Intellectual Capital. Core Asset for the Third Millennium Enterprise, International Thomson Business Press.

2. Gorunescu F., Data Mining: Concepte, Modele şi Tehnici, Editura Albastră, Cluj Napoca

3. Kittler R., Wang W., The Emerging Role for Data Mining, Solid State Technology, vol. 42, nr. 11, pg.45-58.

4. Liebowitz J., Knowledge Management Handbook, Springer-Verlag.