Vissza az előzőleg látogatott oldalra (nem elérhető funkció)Vissza a tananyag kezdőlapjára (P)Ugrás a tananyag előző oldalára (E)Ugrás a tananyag következő oldalára (V)Fogalom megjelenítés (nem elérhető funkció)Fogalmak listája (nem elérhető funkció)Oldal nyomtatása (nem elérhető funkció)Oldaltérkép megtekintése (D)Keresés az oldalon (nem elérhető funkció)Súgó megtekintése (S)

Trendkutatás módszerei és eszközei az interneten / Web-mining fogalma és eszközei

Tanulási útmutató

Összefoglalás

A leckében bemutatjuk a webes adatbányászat alapvető területeit.

Web-mining fogalma és eszközei

Az informatika fejlődésével az adattároló eszközök egyre olcsóbbak, nagyobb kapacitásúak lettek, ezáltal elérhetővé váltak nem csupán a vállalkozások, de akár az egyszerű felhasználók számára is. A vállalatoknál elérhetővé vált, illetve digitializált, vagy pedig már digitálisan keletkezett és tárolt, gyakran nyers, strukturálatlan adatokban történő keresés, az adatok közötti összefüggések (tudás, következtetések, az adatok mélyén megbújt információ) feltárása, valamint feldolgozásuk is szükségessé vált a hatékony vállalati működéshez, döntéshozáshoz. Egy vállalat működése során használhat ugyan adatbázis-kezelő rendszereket, de egyrészt az adatok jelentős része gyakran ezeken kívül keletkezik (például dokumentumok, e-mailek, excel táblázatok, prezentációk, fényképek, videó állományok, stb.). Jobb esetben ezen, strukturálatlan adathalmaz egy része kiegészítő, úgynevezett meta adatokkal leírva bekerül egy-egy vállalati adatbázisba. Másrészt az adatbázis-kezelő rendszereknek is vannak korlátai: komplex, kereső-kifejezésekkel nehezen, vagy egyáltalán nem leírható feladatok kiszámolása gyakran túl sok időbe kerül, nem hatékony, esetleg nem is kivitelezhető, valamint az adatbázisok összekötése is bonyolult.

Gondoljunk csak az alábbi, sokszor kézenfekvő kérdésre egy cég életében: Melyik korábbi vevőinket célozzunk meg a következő marketing kampánnyal azért, hogy az új, vagy továbbfejlesztett termékünket, szolgáltatásunkat megvásárolják? Ezzel a területtel, ilyen és ehhez hasonló kérdésekkel foglalkozik az adatbányászat.

Az utóbbi néhány évben az Interneten keletkezett (például felhasználók által előállított, feltöltött tartalmak, felhasználók viselkedésének mérése során keletkezhetnek, de előállíthatnak adatokat szenzorok is), valamint tárolt adatok hatalmas növekedésével találkozunk, melyeket szeretnénk közel valós időben fel is dolgozni. Ezt a jelenséget szokás „big data”-nak nevezni. Hogy szemléltetni tudjuk mindezt, álljon itt néhány statisztikai érdekesség:

A web egymással összekapcsolt fájlok gyűjteménye, amelyek egy vagy több webszerveren helyezkednek el.

A web-bányászat (web-mining) olyan adatbányaszati technikák használatát jelentik, amelyek segítségével a web-es adatokból információkat, mélyebb összefüggéseket nyerhetünk ki.

A web-en keletkezett, található adat lehet:

A fentiek alapján a webes adatbányászat különböző alterületeit különböztetjük meg:

Webtartalom-bányászat

Azon folyamat, amikor a web-en található dokumentumokból (weblapok, azaz HTML oldalak, szövegek, képek, videók, stb.) használható információt nyerünk ki, például a web (egy részének) tartalmát bejáró, azt kigyűjtő, elemző web robot segítségével.

Vissza a tartalomjegyzékhez

Webstruktúra bányászat

A honlapot és a webet felépítő hiperlinkekből, azok kapcsolataiból nyer ki információt. Főbb alkalmazási területei:

Vissza a tartalomjegyzékhez

Webhasználat-bányászat

A látogatók szokásainak, magatartásmintáinak tanulmányozás. A felhasználó viselkedését (hova kattintott, merre járt az egérrel, esetleg hova nézett), milyen útvonalat járt be (melyik oldalakat látogatta meg, mennyi időt töltött az egyes oldalakon, mely linkekre kattintva jutott el az adott oldalra, stb.) elemezzük. A webszerver által rögzített, vagy a böngészőben lefutó, úgynevezett kliensoldali kódokkal, esetleg a felhasználó viselkedését vizsgáló speciális webkamerával vagy egyéb eszközzel követhetjük nyomon a honlapon.

Webnaplók elemzéséből például az alábbiakat állapíthatjuk meg:

Egy gyakran használt web analitikai eszköz, a Google Analytics méréseiből például többek között az alábbiakat állapíthatjuk meg:

Vissza a tartalomjegyzékhez

Új Széchenyi terv
A projekt az Európai Unió támogatásával, az Európai Szociális Alap társfinanszirozásával valósul meg.

A Társadalominformatika: moduláris tananyagok, interdiszciplináris tartalom- és tudásmenedzsment rendszerek fejlesztése az Európai Unió támogatásával, az Európai Szociális Alap társfinanszírozásával, az ELTE TÁMOP 4.1.2.A/1-11/1-2011-0056 projekt keretében valósult meg.
A tananyag elkészítéséhez az ELTESCORM keretrendszert használtuk.