Vissza az előzőleg látogatott oldalra (nem elérhető funkció)Vissza a tananyag kezdőlapjára (P)Ugrás a tananyag előző oldalára (E)Ugrás a tananyag következő oldalára (V)Fogalom megjelenítés (nem elérhető funkció)Fogalmak listája (nem elérhető funkció)Oldal nyomtatása (nem elérhető funkció)Oldaltérkép megtekintése (D)Keresés az oldalon (nem elérhető funkció)Súgó megtekintése (S)

Üzleti és közpolitikai alkalmazások, marketing, adatbányászat, szociális intelligencia / Közszolgálati tartalmak archiválása és keresése

Digitális archívum

A korábbi fejezetek alapján belátható, hogy az adatarchívum (data warehouse vagy data repository) létrehozása fontos lépés lehet az adatbányászat feltételeinek a kialakításában: ezek közé tartozik az adatok tisztítása, integrálása, konvertálása egységes és szabványos formátumra. Az adatarchívum típusa, nagyságrendje a vállalkozás méretétől, a megvalósításra rendelkezésre álló időtől, forrásoktól függ: az üzleti szaknyelvben az adattárház elnevezés általában nagyobb volumenű és hosszú távú adattárolásra alkalmas archívumot jelent, amely az adat “történelmi” megőrzésének illetve megsemmisítésének a funkcióját éppúgy ellátja, mint ahogy a pillanatnyi felhasználási és hozzáférési szempontokat is kielégíti. Amennyiben nem áll rendelkezésre az elemzésre alkalmas adatarchívum, akkor az adatot több, többnyire operatív vagy tranzakcionális ügyletekre használatos adatbázisból kell kinyerni és integrálni. Átmeneti megoldásnak tekinthetők a vállalati intelligens (business intelligence) megoldások között számon tartott adatpiaci (data mart) alkalmazások. Főleg a korlátozottabb lehetőségekkel bíró közintézmények, vállalatok választják azt megoldást, hogy a saját maguk által összegyűjtött adatokat rövidtávon tárolják és elemezik a tartósság és időtállóság kérdést elhanyagolva. A valódi alternatíva az, amikor az adatbányászathoz szükséges adatbázisok az adattárház fizikai vagy logikai alegységét képezik, és összességében az adatarchívum működését szigorú és egységes adatkezelési (data management) szempontok határozzák meg.

Az utóbbi évek trendje, hogy az adattárházakat és általában az adatarchívumokat technológiák gyűjteményeként fogjuk fel, amelyeket különböző kritériumoknak kell megfeleltetni. William H. Inmon (2005) definícióját követve az alább felsorolt jellemzők, minőségi elvek szükségesek ahhoz, hogy az archívumok a vezetői döntéstámogatást vagy kutatást szolgálják.

Tárgyorientált vagy tematikus: az egyes technológia alkalmazások mindig egy felhasználói kör, egy-egy vállalat igényét elégítik ki, s az egyes funkciókra, munkafolyamatokra koncentrálva tranzakcionális adatokat gyűjtenek. Ha a vállalat célja az, hogy a víztisztító készülékeket megvásárló vevőkör vásárlási szokásait tanulmányozza, akkor a meglévő adatokat a vevő szerint csoportosítva, rendszerezve érdemes tárolni az archívumban, illetve ehhez kapcsoló tárgyköröket érdemes kialakítani, például a szűrő élettartama, a készülék árfekvése. Közintézményeknél, ahol a szociálisan hátrányos helyzetű családok támogatásának hatékonyabb elosztása a cél, a családot tekintjük az adattárház tárgyának, s olyakor nehézségekbe ütközik a forrásrendszerek funkcionális egységeiből a megfelelő adatot kinyerni magáról a családról, mert az egyes családtagok egyénként szerepelnek a nyilvántartásokban.

Integrált: a data driven azaz adatvezérelt tevékenységek egyik fontos feltétele a normalizált, szabványos és egységes formátumú adatok megléte. Ennek kapcsán számos probléma merülhet fel egy adatarchívum kialakításakor: a zárt formátum, a nem strukturált adat, mind az egységes adatkezelés akadályát képezhetik. Az adatok összefésülése, normalizálása csak optimális esetben lehetséges manuális beavatkozás kizárásával, minél heterogénabb adat-halommal dolgozunk, annál nagyobb az esély az eltérésekre, annál több erőfeszítést –nem ritkán humán beavatkozást- igényel az adatok integrálása. Ebben az esetben kulcsszerepet játszik a céladatbázis adatséma modelljének a kialakítása, és az, hogy a lehető legkisebb részletezettséggel (granularity) tároljuk az információt.

Tartós: az adatarchívum az adatokat eredeti és autentikus mivoltukban tárolja, az archívumba való bekerülés tényét időbélyeg rögzíti, de más eljárások, mint a checksum, hash algoritmus segítik a megbízható adatkezelést. A forrásadatbázis adataink változásával, az új adat új érvényességi idővel és időbélyeggel ellátva emelődik be, innentől kezdve nyomkövetési naplóból értesülhetünk a változásról. A tartósság azonban nem jelent örökérvényűséget, az adat érvényességi ideje (retention period) már a bekerülés pillanatában megszabja, hogy mikor kerül törlésre az archívumból. Egy adattárházban az adatok tárolási ideje évtizedekre is kiterjedhet, így mód nyílhat visszakeresésre, utóelemzésre, összehasonlításra. Ugyanakkor az Európai Bizottság adatkezelési direktívái szigorúan szabályozzák a személyes adatok megadott célra történő és meghatározott idejű tárolását. A tartósság kritériumát tehát nem kizárólag az archívum céljai, hanem a törvényi keretek is behatárolják.

Időfüggő: a forrásadatok többnyire egy megadott idősávra vagy időpontra vonatkoznak, a kontextus megőrzése, és idősoros adatok kinyerése egy meghatározott tárgykörről minden adattárház elsőrendű feladatai közé tartozik. Az adatbázisban ennek megfelelően időfüggően, idősorosan tároljuk az adatokat és ennek megfelelően követjük az adatforrások változását is. Egy filmkatalógus folyamatos frissítése nem csak új filmek bevételezésével kapcsolatos nyilvántartási tételek megjelenését feltételezi, hanem a meglévő bibliográfia leírások változását, gyarapodását is jelentheti beleértve a felhasználók által hozzáadott meta-tagokat, annotációkat.

Az adatarchívum architektúrája

Az adattárházak három főbb architekturális összetevőjét szokás megemlíteni, ezek a komponensek egyetlen platform részeként is megjelenhetnek vagy különböző platformok integrálásával alkotják az archívum architektúráját:

Az adattárház építőelemei egy hagyományos kliens-szerver rendszerbe illeszkednek: a felhasználó egy kiszolgáló vagy kiszolgálók szolgáltatásait veszi igénybe. A munkamegosztás megvalósítása széles skálán mozoghat: az egy gépen futó kliens-szerver pároson át a több gépre elosztott kliens-szerver rendszerekig. A tranzakciós rendszerekből az adatkinyerő szoftver segítségével nyerjük ki a gyakran heterogén forrásokat, amelyeket aztán áttöltünk az adatarchívumba, hogy felhasználó a kliensen keresztül elemezhesse őket. Természetesen a konkrét kivitelezés szintjén számtalan verzióval találkozhatunk: létrejöhet egy adatpiaci megoldás, ami kisebb kapacitást és elemzési egységet jelent egy lokális vállalati/intézményi közegben, vagy kialakítható egy Operational Data Store (ODS), hogy nagyobb részletezettségű adatok számára biztosítson gyűjtőhelyet, normalizálási eszközöket és elemzési felületet. Esetleg az Enterprise Data Warehouse modellje kerül alkalmazásra, amikor egy globális hálózatból futnak össze az adatok. Napjaink big data technológiája már nem elszigetelt archívumokra támaszkodik, hanem megosztott adatbázisokra, egymással kommunikáló hálózatokra, az adattárházak által alkalmazott darabolási technika (Data Warehouse Striping) pedig lehetővé teszi, hogy a klaszterekbe rendezett gépek teljesítménye az adatmennyiség függvényében növekedjen az elemzés sebességét is beleértve. Az adatarchívum architektúrájának skálázhatósága tehát nagy jelentőséggel bír az OLAP (On-line Analytical Processing) felhasználók számára, ugyanis az interaktív lekérdezések sokasága és az ezzel kapcsolatos válaszidő olykor nagyon is nem elhanyagolható szempont a döntéshozatal egyes területein.

Az adatarchívum architektúrája

A felsorolt architekturális elemek önmagukban nem elégséges feltételeit képezik a hosszú távú archiválásnak. Az archiválási kérdések megoldása - hozzáférhetőség, integritás, hitelesség, adminisztráció - rendszerszerű szemléletet igényel.

Néhány egységes rendszert alkotó referencia modell létrejött az elmúlt évtizedben, közülük is a leginkább elfogadott, de facto szabványként kezelt, a Nyílt Archívumi Információs Rendszer (Open Archival Information System, OAIS http://www.iso.org/iso/iso_catalogue/catalogue_tc/catalogue_detail.htm?csnumber=24683). Az OAIS-t eredetileg az űrkutatási szervezetek dolgozták ki a digitális adatok hosszú távú megőrzési modelljének magas szintű leírására később ISO 14721:2003 néven szabvánnyá vált.

Az OAIS modell információcsomagokra épít, amelyek a következő egységekből állnak:

az archiválásra, tárolásra vonatkozó információcsomagokat AIP-nak, a forrásrendszer által szolgáltatott adatokat SIP-nek, a jövőbeli felhasználónak adott, az értelmezéshez szükséges információkat DIP-nek nevezi. Ez a hármas tagolás jól tükröződik az adattár architektúrájában is, amikor back-end, céladatbázis és front-end építőelemekről beszélünk. Az archiválásra, tehát magára az adattárolásra az Archival Information Package (AIP) vonatkozik és olyan metadatok, adminisztratív adatok meglétét tekinti kívánatosnak, amelyek túlmutatnak a megőrizendő forrásadatokon. Székely (2008) négy fontos metaadat típust emel ki: az archívumtudományból ismert provenienciara vonatkozó metaadatokat, amelyek a megőrzendő tartalom forrásáról, keletkeztetőjéről őriznek információt, a kontextust rögzítő metaadat, amely meghatározza a tartalom más tartalmakhoz való kapcsolódását, a referencia-információra vonatkozó metaadat, amely egyedileg azonosíthatóvá teszi az adatot valamely nyilvántartási rendszerben, valamint a rögzítő információ, amely megakadályozza, de legalább is detektálja a tartalom megváltozását. Mindezen elemeket és összefüggéseiket meg kell őriznünk ahhoz, hogy az eredetileg megőrzendő tartalom hosszútávon elérhető és értelmezhető maradjon. Az OAIS funkcionális entitásait és azok főbb kapcsolatait a következő két ábra illusztrálja (CCSDS 2002 alapján).

OAIS Function Entities
Functions of Archival Storage

Az adatarchívum működése

Az adatarchívumok működését számtalan munkafázisra oszthatjuk fel, de alapvetőn az információfeldolgozás és az adminisztrálás munkafolyamatait sorolhatjuk ide.

Az adatok kinyerésére és betöltésére úgynevezett ETL (extraction, transformation, load) eszközök állnak rendelkezésre, amelyek az összekötő kapocs feladatát töltik be a forrásrendszerek és az adattárház között. Az adatok kinyerése a tranzakcionális adatbázisból további alfolyamatokra tagolható: a kinyerés, a transzformálása (egységes nyelv, formátum, mértékegység), a minőség ellenőrzése, a tisztogatás és a betöltés művelete. Az adatok többnyire operatív információt hordoznak, melyek változásainak egyetemesen kell propagálódniuk az archívum struktúráján keresztül a részletes elemzésekre, az aggregált kimutatásokra és a felhasználók egyedi jelentéseire. A megfelelő adatfrissítési gyakoriság nem kizárólag módszertani kérdés, hanem aránytalanul nagy terhet jelenthet magára a tranzakcionális rendszerre is, ahonnan az adatokat kinyerjük. Az adatok kinyerésének módja kétféleképpen történik attól függően, hogy milyen szabályzó mechanizmusokat iktatunk be a folyamatba: a push alulról építkezik, és magát az operatív rendszert készítjük fel arra, hogy időnként adatot gyűjtsön és továbbítson. A pull esetében fordított folyamat játszódik le, az adatarchívum alkalmazása rögzített időintervallumban lekérdezéseket hajt végre az operatív rendszerben.

Adatbányászat, adatarchívum és elemzés

Gyakori kérdés, hogy miként kapcsolódik az adatarchívum és az OLAP az adatbányászat témaköréhez. Han és Kamber (2001) ezt úgy határozza meg, hogy az OLAP olyan eszköz, ami az archívumban összegyűjtött adatok dinamikus és sokrétegű elérhetőségét garantálja, egyben lehetővé téve a hatékony adatbányászatot is. Maga az OLAP kifejezés az online analitikus feldolgozásra (online analytical processing) utal, olyan lekérdezéseken alapuló elemzésre, ami egy adatbázisra vagy egy adattárház összes adatára támaszkodik. A különböző dimenziók mentén végrehajtott lekérdezések révén az OLAP szelektív leválogatást kínál az adathalomból, de minden dimenzió általában több rétegű aggregáltsági szintet feltételez. Például az idődimenzió további kategóriákba rendezhető, évekre, hónapokra, napokra. A lényeges különbség az OLAP és az adatbányászat között, hogy az előbbi egy aggregálásra/összegzésre épülő eszköz, míg az utóbbi a részletekre koncentrál. Az adatbányászat a hatalmas mennyiségű adatban rejtett mintázatokat kutat, az újszerű tudást próbálja feltérképezni, míg az OLAP lekérdezés során az elemző kipróbálhatja, hogy az újszerű ismeret milyen következményekkel járhat a döntéshozatalban. Az OLAP kétségtelenül több mint egy hagyományos adatbázis lekérdezés, mert amíg a hagyományos query arra kíváncsi, hogy mi van az adatbázisban, az elemző OLAP lekérdezések sorozatán át a miért-re akar választ kapni, azt akarja tudni, hogy miért igaz az adott összefüggés. Az elemző például azzal a hipotézissel élhet, hogy az alacsony jövedelemmel rendelkező emberek hitelkockázatot jelentenek a banknak, de az OLAP elemzés ennek akár a cáfolatát is bebizonyíthatja.

Az OLAP és az adatbányászat technológiájának együttes alkalmazását OLAM-nak (online analytical mining) nevezzük. Az OLAM megoldások különösen azért lényegesek, mert az adatbányászathoz hasonlóan szintén feltételezi az adatok integrált, következetes és normalizált kezelését, azaz adat előfeldolgozottságát. Az adatarchívumok alaplogikáját pontosan a magas minőségű adatok tárolása adja, ami egyaránt segíti az OLAP, adatbányászat vagy OLAM elemzések lefuttatását.

Vissza a tartalomjegyzékhez

Új Széchenyi terv
A projekt az Európai Unió támogatásával, az Európai Szociális Alap társfinanszirozásával valósul meg.

A Társadalominformatika: moduláris tananyagok, interdiszciplináris tartalom- és tudásmenedzsment rendszerek fejlesztése az Európai Unió támogatásával, az Európai Szociális Alap társfinanszírozásával, az ELTE TÁMOP 4.1.2.A/1-11/1-2011-0056 projekt keretében valósult meg.
A tananyag elkészítéséhez az ELTESCORM keretrendszert használtuk.