Vissza az előzőleg látogatott oldalra (nem elérhető funkció)Vissza a tananyag kezdőlapjára (P)Ugrás a tananyag előző oldalára (E)Ugrás a tananyag következő oldalára (V)Fogalom megjelenítés (nem elérhető funkció)Fogalmak listája (nem elérhető funkció)Oldal nyomtatása (nem elérhető funkció)Oldaltérkép megtekintése (D)Keresés az oldalon (nem elérhető funkció)Súgó megtekintése (S)

Üzleti és közpolitikai alkalmazások, marketing, adatbányászat, szociális intelligencia / Adatbányászat alkalmazásai: marketing, szegmentáció, analitika.

Tanulási útmutató

Összefoglalás

Adatbányászati alapfogalmak és elemzési módok.

Az adatbányászat fogalma és alapjai

A könnyebb érthetőség érdekében elsőként összehasonlítjuk az olvasó számára valószínűleg ismerősebb, kérdezés alapú adatgyűjtés (survey technika) és elemzés, valamint az adatbányászat sajátosságait. Ezt követően bemutatjuk az adatbányászathoz használt adatokat, adattípusokat. Majd sorra vesszük az adatbányászat tipikus lépéseit – egyelőre a folyamatok részletes leírása nélkül (erre a következő részben kerül sor). Végül kitérünk az adatbányászat esetén különösen fontos adatvédelmi és etikai kérdésekre.

Adatbányászat és survey alapú statisztikai elemzés

Az adatbányászat definíciójaként Sramó András (Sramó, 1999) többek között az alábbi idézeteket gyűjtötte össze (melyek mellett természetesen léteznek további definíciók is, azonban ezek hordozzák a módszer lényegét):

„Az adatbányászat implicit, előzőleg ismeretlen és potenciálisan hasznos információ adatokból történő nem triviális kivonását jelenti. (…)” (Frawley, W. – Piatetsky-Shapiro, G. – Matheus, C.)

„Az adatbányászat olyan kapcsolatok és globális minták nagy adatbázisokban történő keresését jelenti, amelyek el vannak rejtve az adatok nagy tömege mögött (…)” (Holsheimer, M. – Siebes, A.)

„Az adatbányászat az adatokban rejlő minták, kapcsolatok, változások, anomáliák és statisztikailag szignifikáns struktúrák és események felfedezésével foglalkozik. A hagyományos adatelemzés feltevés alapú abban az értelemben, hogy egy hipotézist fogalmaz meg és annak helytállóságát igazolja vagy elveti. Az adatbányászat ezzel ellentétben felfedezés alapú annak megfelelően, hogy a mintákat automatikusan vonja ki az adatokból.” (Grossman, R. L.)

A kiragadott definíciók közös eleme az adatbányászat felfedező, feltáró (másként fogalmazva exploratív) jellege szemben a survey alapú elemzésekkel, amelyek elsősorban hipotézistesztelésen alapulnak. A megközelítésbeli különbség érzékeltetése érdekében érdemes idézni Bodon Ferenc példáját:

„Tegyük fel, hogy egy adatbázisban sokmillió ember DNS-szekvenciáit és tulajdonságait tároljuk. Egy jellegzetes statisztikai kérdés lehet az, hogy például a kék szemű emberek mekkora részére jellemző egy adott DNS-szekvencia. (…) Egy adatbányász nem kérdezne rá egy konkrét szekvencia és egy konkrét tulajdonság közötti összefüggésre, hanem egy általánosabb kérdést tenne fel, például azt, hogy milyen összefüggés van a tulajdonságok és szekvenciák között, melyik tulajdonságért melyik szekvencia felelős?” (Bodon, 2010)

Az idézett példa rávilágít arra, hogy az olvasó számára ismertebb, elméleti alapú, kötöttebb kérdésfeltevést lehetővé tevő, survey alapú elemzésekkel szemben az adatbányászat elsősorban leíró, feltáró, szabadabb, intuitívabb elemzést tesz lehetővé (ezzel együtt járnak ugyanakkor a megbízhatósággal kapcsolatos aggályok is). További különbség a két megközelítés között, hogy míg a survey alapú elemzések mindig szándékosan létrehozott, adott kutatási kérdés megválaszolását célzó adatbázisokon történnek, addig az adatbányászati elemzés gyakran létező, nagy mennyiségű adat másodelemzései. Míg a survey alapú elemzések esetén konkrét, (sokszor előre) megfogalmazott összefüggések keresése, illetve állítások (hipotézisek) tesztelése a cél, az adatbányászat célja általánosan megfogalmazott mintakeresés, általános összefüggések feltárása. Végül, de nem utolsó sorban a szakma szabályai szerint elvégzett survey alapú kutatás lényegében mindig (valamilyen) véletlen mintavételen alapul, az adatbányászat adatai sokszor teljes körűek, vagy mindenféle mintavételi szempontot nélkülöznek (Látni fogjuk, hogy maga az adatbányászati eljárás, az elemzés egy léseként tartalmazhat a teljes adatbázisból történő mintavételt – ez azonban döntően más, mint a survey alapú kutatások mintavétele, ahol a teljes sokaságból történő mintavétel a keletkező adatbázis létrehozásának az alapja). Az adatbányászat és a survey alapú elemzés eltéréseit az 1. tábla foglalja össze.

Adatbányászat

Survey alapú elemzés

Általános szemlélet

leíró, feltáró, intuitív

(problematikus megbízhatóság)

kötött. konkrét kérdések megválaszolására irányul

Adatok eredete

gyakran létező adatbázisok, adatbázisok összekapcsolása

célzott adatfelvétel a kutatási kérdés ismeretében

Adatgyűjtés

teljes körű, vagy ad hoc

mintavételen alapuló

Összefüggés keresés jellege

mintakeresés, szabályszerűségek feltárása

megfogalmazott hipotézisek tesztelése, pontos kutatási kérdések megválaszolása

Adatok és adatbányászat

Az adat fogalma az adatbányászatban eltér a survey alapú kutatások adatfogalmától. A survey alapú kutatások adatai mátrix formában reprezentált adatok, amelyben a sorok a megfigyelési egységek (Megfigyelési egység alatt érthetünk személyeket, cégeket vagy bármilyen entitást, amelyre vonatkozóan adatgyűjtés elképzelhető), az oszlopok az előre definiált (kérdésekhez kapcsolt) változók, amelyeket az elemzés során gyakran valószínűségi változók mintáinak tekintünk. Ezzel szemben az adatbányászatban használt adatok gyakran nem elemzés céljából jöttek létre, sokszor különféle adatbázisok összekapcsolásával kerülnek kialakításra. A survey alapú adatbázisokkal szemben, amelyek ritkán tartalmaznak azonos változóra vonatkozóan több, még ritkábban sok megfigyelést, az adatbányászat által használt adatok gyakran egy megfigyelési egységre vonatkozóan sok ismétlődő megfigyelést tartalmaznak. Végül amint korábban már említettük az adatbányászat által használt adatok a legritkább esetben alapulnak mintavételen, sokszor teljes körűek (a vizsgált célpopuláció minden tagjára rendelkezésre állnak).

Mivel az adatgyűjtés nem célzott (legtöbbször nem célja az elemezhetőség), az adatokat utólagosan kell bizonyos kritériumoknak megfeleltetni. Ilyen kritériumok Bodon (2010) szerint:

Dilbert

Az adatbányászat folyamatának lépései

Az adatbányászat fogalmának körülhatárolása eddig elsősorban tartalmi volt, ugyanakkor nem kerülhető meg a folyamat szintű körülhatárolás sem: milyen folyamatba illeszkedik, milyen lépésekből áll és meddig tart az adatbányászat. Ezzel a kérdéssel kapcsolatban a szakirodalom megoszlik. Fayyad (1996) sokat idézett cikke adatbányászat alatt a tulajdonképpeni modellezési, statisztikai, matematikai műveleteket érti, amely csupán egy lépése a tudásfeltárásnak (Knowledge Discovery in Databases) nevezett folyamatnak. A gyakran alkalmazott adatbányászati szabványok, mint a CRISP-DM (Cross Industry Standard Process for Data Mining: az EU támogatásával négy cég az NCR, a DaimlerChrysler, az SPSS és az OHRA részvételével létrehozott szabvány) vagy a SEMMA (Betűszó: sample (mintát vesz), explore (feltár), modify (módosít), model (modellez), assess (értékel), a SAS által kidolgozott módszertan) a probléma megfogalmazásától az eredmények prezentálásáig az egész folyamatot adatbányászatnak nevezik. Tárgyunk megértése szempontjából érdemes a tágabb értelemben vett folyamat minden lépését röviden áttekinteni. A három említett modell közül kidolgozottsága, viszonylagos korszerűsége és széles körű alkalmazottsága miatt a CRISP-DM modell lépéseit tekintjük át.

A CRISP-DM modell lépései

Az első lépés a probléma feltérképezése (business understanding). Ez a kezdeti lépés döntő fontosságú az adatbányászat szempontjából. E lépés során kell megfogalmazni az adatbányászati eljárással kapcsolatos elvárásokat, tisztázni kell azt a környezetet, amelyben az eredmények értelmezhetőek lesznek és elkészíteni a projekt tervét.

A következő lépés az adatok áttekintése (data understanding). A probléma feltérképezését követően az adatok áttekintése során az első feladat az adatgyűjtés, ezt követi az adatok pontos leírása, majd az adatok feltárása (grafikonok, leíró statisztikai eszközök segítségével. E lépés záró momentuma az adatok minőségének ellenőrzése. E lépés legfontosabb célja, hogy minden adat, amely elérhető a lehető legjobb minőségben (forrásból) álljon rendelkezésre.

A harmadik lépés az adatok megfelelő formába történő alakítása (data preparation). E lépés legfontosabb feladatai: az adatok tisztítása, az adatok összefűzése (ha több forrásból származó adatról van szó), a felhasználni kívánt attribútumok (változók) kiválasztása, esetenként új, származtatott attribútumok létrehozása. E lépés technikai része az adatok formázása, amely az adott elemző alkalmazás számára felhasználhatóvá teszi az adatokat. A gyakorlatban az eddig leírt három lépés teszi ki az adatbányászat költségeinek és időigényének jelentős részét.

A negyedik lépés a tulajdonképpeni elemzés (modeling). E lépés során az első momentum a problémának és a rendelkezésre álló adatoknak megfelelő eljárás(ok) kiválasztása, ezt követi a modell(ek) elfogadási kritériumainak meghatározása, majd a tulajdonképpeni modellépítés (ez gyakran önmagában is iteratív feladat). Végül e lépés záró momentuma az elfogadott modell értelmezése.

Az ötödik lépés a modell ellenőrzése (evaluation). E lépés során meg kell vizsgálni a modell általánosíthatóságát, illetve azt, hogy milyen mértékben felel meg a folyamat első lépésében meghatározott céloknak. E lépés során ismételten át kell tekinteni a folyamatot és meg kell vizsgálni, hogy az egyes lépések megfeleltek-e a minőségi kritériumoknak. Végül e lépés utolsó momentumaként születhet döntés arról, hogy az eredmények alkalmazhatók, vagy vissza kell lépni valamelyik korábbi lépéshez (elsősorban az elemzéshez) és megismételni azokat.

Az utolsó lépés az alkalmazás (deployment). Ez a lépés esetenként az elemző tanulmány elkészítését fedi, de gyakran maga a megrendelő az, aki az eredmények alapján valamilyen döntést hoz, működést módosít.

Etikai és adatvédelmi kérdések

Az adatbányászat esetén az adatvédelmi és etikai kérdések hatványozottan lépnek fel. Ez annak köszönhető, hogy szemben a survey alapú adatelemzéssel, ahol az adatgyűjtés alanyai (Az etikai és adatvédelmi kérdések esetén az alany kifejezés a korábbiakban alkalmazott és a statisztikában használatos megfigyelési egység helyett szerepel.) tudnak róla és beleegyeznek a részvételbe, az adatbányászat által használt adatbázisok döntő többsége esetén az adatgyűjtés alanyai – bár tudhatnak róla – általában nincsenek tudatában annak, hogy róluk adatokat gyűjtenek. Az alanyok szempontjából különösen nehéz annak a felmérése, hogy különféle adatbázisok összekapcsolása alapján milyen tudás alakulhat ki mindennapi vagy akár titkolni szándékozott viselkedésükről. A kényes helyzettel kapcsolatban nagyon sok ajánlás fogalmazódott meg. Illusztrációként bemutatjuk Stanley és Zaďane (2004) az OECD széles körben elfogadott általános adatvédelmi ajánlásait követő javaslatát az adatbányászat során követendő négy alapelvre:

"Ingyen van, de eladják a személyes adataidat" (forrás: New Yorker)

Ezek az ajánlások semmilyen kötelezettséget nem rónak az adatgazdákra, ugyanakkor nagyjából jól leírják, hogy milyen területeken, milyen kihívásokkal kell szembenézni az adatbányászat során adatvédelmi szempontból. Magyarországon az adatvédelem jogi szabályozása ezen a területen inkább keret jellegű, a konkrét jogsértéseket a jelenleg Nemzeti Adatvédelmi és Információszabadság Hatóság a jogszabály értelmezése útján szankcionálja.

Vissza a tartalomjegyzékhez

Új Széchenyi terv
A projekt az Európai Unió támogatásával, az Európai Szociális Alap társfinanszirozásával valósul meg.

A Társadalominformatika: moduláris tananyagok, interdiszciplináris tartalom- és tudásmenedzsment rendszerek fejlesztése az Európai Unió támogatásával, az Európai Szociális Alap társfinanszírozásával, az ELTE TÁMOP 4.1.2.A/1-11/1-2011-0056 projekt keretében valósult meg.
A tananyag elkészítéséhez az ELTESCORM keretrendszert használtuk.