Vissza az előzőleg látogatott oldalra (nem elérhető funkció)Vissza a tananyag kezdőlapjára (P)Ugrás a tananyag előző oldalára (E)Ugrás a tananyag következő oldalára (V)Fogalom megjelenítés (nem elérhető funkció)Fogalmak listája (nem elérhető funkció)Oldal nyomtatása (nem elérhető funkció)Oldaltérkép megtekintése (D)Keresés az oldalon (nem elérhető funkció)Súgó megtekintése (S)

Trendkutatás módszerei és eszközei az interneten / Keresőportálok működési elvei, indexelő szolgáltatások rangsorolási szempontok

Keresőportálok működési elvei, indexelő szolgáltatások, rangsorolási szempontok

Ahogy az előző fejezetben is olvasható, számos keresőportált használhatunk a társadalmi és marketingkutatásokhoz. Tananyagunk jelen fejezetében megismerkedünk a keresőportálok működési elvével, a keresők által tárolt adatok rangsorolási szempontjaival. Ahhoz, hogy hatékonyan tudjunk keresni, meg tudjuk találni a kutatásainkhoz szükséges információkat, illetve, hogy magunk is elhelyezhessük kutatásaink eredményeit, úgy, hogy az azokat keresők hamar megtalálják, érdemes megismerkedni keresőportálok működési elveivel.

Általánosságban elmondható, hogy a keresőportálok adatbázisban tárolt adatok (legyenek azok weboldalakból kinyert tartalmak, képek, videók, szótár, stb.) keresésére adnak egy webes felületet. (Adatbázisok, kutatási adatbázisok építésével a tananyag „Kutatási adatbázisok tervezése és eszközei” c. fejezet foglalkozik.). Keresőportálok csoportosítására számos módszer létezik, természetesen az egyes kategóriák között lehetnek átfedések, valamint az egyes keresőportálok sem feltétlenül csak keresési szolgáltatásokat nyújtanak a látogatóknak. Első megközelítésben az adatbázis tartalma lehet automatikusan, ún. keresőrobot által (pl.: Google), illetve a felhasználók, a készítők által feltöltött (pl.: Flickr, sztaki szótár).

Keresőportálok csoportosítása

Klasszikus, általános célú keresők

A keresők a weblapokat indexelés után veszik fel az adatbázisba. A legnagyobb keresők (a Google, a Yahoo és a Bing) alapvetően ebbe a kategóriába tartoznak. Működési elvük szerint speciális szoftverekkel, ún keresőrobot (spider, crawler, robot, bot) megkeresi az oldalakat az interneten, ha mutat rájuk legalább egy hivatkozás. Újonnan készült oldalainkat szinte mindegyik keresőben bejelenthetjük, jellemzően ingyenesen.

Ha pedig nem mutat bejövő link az oldalunkra, akkor hiába is jelentjük be, előbb-utóbb el fog tűnni oldalunk a találati listából.

Katalógus, linkgyűjtemény jellegű, többnyire tematikus keresők

Többnyire felhasználók, vagy szerkesztők által kezelt tartalmak érhetőek el. Utóbbi esetben például oldalunkról egy űrlapot kitöltve jelentkezhetünk az adatbázisba. A jelentkezést egy szerkesztő bírálja. Léteznek fizetős és ingyenes keresők egyaránt.

Például:

Az ilyen jellegű keresőkbe azért is érdemes bekerülni, mert ezek látogatottsága jellemzően jó, a keresőrobotok gyakran nézik meg újra és újra ezek tartalmát, a bejövő linkek pedig szükségesek ahhoz, hogy a hagyományos - és a látogatók szerzésében valószínűleg legfontosabb – keresők adatbázisában benne maradjunk, illetve javítsuk helyezésünket.

Web 2.0-s keresők

Ebbe a kategóriába sorolhatjuk azokat a keresőket, amelyekbe a tartalmat a felhasználók töltik fel, osztják meg, mint például:

Tematikus, speciális adatbázisokra épített keresők, tudásbázisok

Adott témára, vagy speciális adatbázisokra épített keresők. Például:

Meta vagy szemantikus keresők

A weben lévő tartalmakat, adatbázisokat a számítógép számára is értelmezetten le tudjuk írni, ún. metaadatok vagy szemantikák, azaz jelentések, összefüggések megadásával. A témával részletesen a Szemantikus web, folkszonómia, mashup fogalma c. fejezetben foglalkozunk.

Néhány szemantikus kereső:

Vizualizációs keresők

Jellemzően valamilyen általános célú keresőre épülnek (pl.: Google), azok találatai között összefüggéseket állapítanak meg, majd azokat ábrázolják, jellemzően gondolati térképeken hatékonyabb, a gráfok mentén böngészve gyorsabb keresést kínálva. Az ilyen jellegű keresők előnye, hogy az láthatjuk az egyes oldalak közötti kapcsolatokat, így a hivatkozások rendszere jobban átlátható. Szintén ide tartoznak azok a keresők

Ilyen keresők például:

A Liveplasma egy vizuális zenei, könyv és filmkereső. Segítségével például az egyes előadók közötti kapcsolatokat bejárva juthatunk új információkhoz.

Flash lejátszó letöltése

A Liveplasma egy vizuális zenei, könyv és filmkereső.

Valósidejű (real time) keresők

Valós idejű keresők, közösségi oldalakon, blogokon, hírfolyamokon használt.

Az adatok szinte valós idejű indexelése, hogy az.

Az internet csak egy kis részét pásztázzák.

Ilyen például: http://socialmention.com

Hibrid

A legnagyobb keresők valójában ebbe a kategóriába tartoznak, hiszen a megpróbálják ötvözni a fenti megoldásokat. A Google keresője például nagyrészt a keresőrobotok által talált oldalak tartalmára, valamint azokon talált képekre történő keresésekben segít, ugyanakkor bizonyos szemantikus adatokat is fel tud dolgozni.

Vissza a tartalomjegyzékhez

Keresőportálok működése

A keresőportálok, keresőmotorok (pl.: Google, Bing, Yahoo, stb.) jellemzően három fő komponensből épülnek fel: az adatok összegyűjtését végző ún. keresőrobotokból, az internetes oldalakon elérhető információkat értelmezhetővé, kereshetővé tevő ún. indexelő, rangsoroló rendszerekből, valamint a kereső, lekérdező felületből, mellyel a felhasználó találkozik.

Webes keresők működése

Flash lejátszó letöltése

Webes keresők működése

Keresőrobotok

A keresőmotorok legfontosabb feladata az interneten elérhető oldalak feltérképezése, meglátogatása, begyűjtése. Ezeket ún. keresőrobotok, (crawler, spider, web bot, web robots, bots) végzik. Itt szeretnénk újra kiemelni, hogy a keresőrobotok csak azokat a weboldalakat tudják megtalálni, amelyekre a korábban már látogatott oldalak hivatkoztak, ezért is különösen fontos, hogy a létrehozott oldalainkra legyenek bejövő hivatkozások, linkek. A keresőrobotok viselkedését úgy képzelhetjük el, mint ahogy magunk is böngészünk. linkek mentén járják be a számukra elérhető internetet a már látogatott oldalakon lévő linkek, vagy korábbi adatbázisuk alapján. Azokat az oldalakat, internetes tartalmakat, ahova nem mutatnak linkek, vagy a keresőrobotok számára tiltott, nem értelmezhető tartalmak, illetve csak jelszó segítségével érhetőek a keresőrobotok sem tudják „elolvasni”. A keresők által nem látható oldalak, az ún. deep web egyes becslések szerint a webes tartalmak 80%-t teszik ki.

A keresőrobotok a látogatott oldalakat le is mentik az indexelő rendszer számára, a meglátogatott oldalakon semmilyen elemzést nem végeznek, csak böngészik az internetet a hivatkozásokon keresztül, lementik a talált oldalakat. A keresőrobot látogatása nem jelenti azt, hogy az oldalunk elérhetővé válik a keresőben, vagy egy adott keresőszóra, -kifejezésre rögtön előrébb kerülünk a találati listában. Mindez az indexelés, valamint a rangsorolás, valamint a kereső-adatbázis frissítését követően lesz látható számunkra. (Jelen esetben eltekintünk attól, hogy a leggyakrabban használt keresők valamelyest ismerik a felhasználókat, ezért a találati listák perszonalizáltak.). A keresőrobotok vezérlésekor algoritmusok döntik el, hogy melyik hivatkozásokat kövessék nyomon, mikor, melyik oldalakat, milyen gyakran látogassák meg. A látogatás gyakoriságát nagyban befolyásolja az oldalak linkstruktúrában betöltött szerepe, fontossága, gyakori frissítése, egyedisége-eredetisége, látogatók száma, esetleg a szponzoráció, stb.

Indexelő és rangsoroló

A robotok által lementett oldalakat az ún. indexelő (indexer) elemezi, tárgymutatókat, ún. indexeket készít az információk gyors megtalálására. Ehhez figyelembe veszi például a szavak gyakoriságát, eloszlását, a szavak előfordulásának helye, pl.: oldal címe, címsor mező, URL cím, pozíció az oldalon belül, stb.

A rangsoroláshoz (melynek egy része a kereséskor történik meg) figyelembe veszik azt is, hogy egy oldalra hány link mutat, valamint az oldalak linkhálózatban betöltött szerepét, azaz, hogy milyen oldalak hivatkoznak rá és az oldal milyen oldalakra hivatkozik. A Google által használt PageRank algoritmus szerint az oldalak a hivatkozásokkal szavaznak egymásra, ajánlják egymást, minden link egy szavazat. A PageRank az oldal fontosságát mutató szám, a szavazatokkal az oldalak ezt a fontosságot „osztják szét” a hivatkozott oldalaknak. Az algoritmus szerint fontos tényező továbbá, hogy az oldalunknak legyenek kimenő linkjei, hiszen a zsákutca oldalak kevésbé fontosak, az oldalaink, a linkhálózat egymásra linkelgetését is szűrik. A valós indexelési, rangsorolási algoritmusok természetesen titkosak.

Kereső

A felhasználók számára az elérhető felületet jelenti. A beírt keresőszavakat, kifejezéseket az adatbázisból kigyűjti, rangsorolja, majd megjeleníti.

Vissza a tartalomjegyzékhez

Egyéni keresések megvalósítása

Az első fejezetekben megismerkedtünk a különböző online keresőkkel, amelyek az általános tartalomkereséstől kezdve a speciális tartalmak megtalálásáig segíthetik munkánkat. A második fejezetben a keresőmotorok működési elvébe kaphattunk bepillantást. Mindkét esetben online tartalmak között kereshettünk, azonban semmilyen ráhatásunk sem volt a folyamat azon részére, amikor is a számunkra releváns dokumentumot megtaláljuk (pl. egy keresőrobot segítségével), vagy ahogyan az egyes dokumentumok indexelésre kerülnek. Csupán a keresési oldalát láttuk, amikor is a feltérképezett tartalomban valamilyen módon kerestünk.

Kutatásaink során azonban előfordulhat, hogy egyedi igények merülnek fel a folyamat során. Íme néhány példa:

Ezeket a feladatokat nyílt forráskódú szoftverek segítségével is meg lehet oldani, ezért ezt a témakört nyílt keresésnek is szokták nevezni.

Feladattól függően többféle lehetőség áll előttünk. A legegyszerűbb esetben más online szolgáltatások adatai alapján szeretnénk speciális kereséseket, kutatásokat végezni. Ekkor a nagyobb keresők által nyújtott szolgáltatásokat használhatjuk (Open Search Web API). Ilyenek például:

Ezek olyan programozói felületet nyújtanak, amelyekkel a keresés automatizálható, szűrhető, több forrással működő lehet. Közös tulajdonságuk, hogy mindegyik a megfelelő szolgáltató indexei alapján dolgozik, azaz mi már csak a találatok feldolgozását végezhetjük el.

Ennél az esetnél sokkal általánosabb (és bonyolultabb) az, amikor az általános web keresők által nyújtott találatokkal vagy szolgáltatásokkal nem vagyunk elégedettek, hanem mi magunk kutatjuk fel dokumentumainkat, indexeljük be azokat, és végzünk kereséseket benne. Ekkor az ún. vertikális keresőket használhatjuk.

A vertikális keresők általában az online tartalom egy speciális részére fókuszál. A specialitás lehet téma szerinti, médiatípus szerinti vagy a tartalom jellegétől függő. Szemben az általános webkeresőkkel, amelyek a World Wide Web nagy részét indexelik be egy keresőrobot segítségével, a vertikális keresők csak azokat az oldalakat indexelik be, amelyek a keresés témájába vágnak, és ehhez általában speciális keresőrobotokat használnak. Ezáltal a keresési találatok sokkal nagyobb pontossága érhető el, valamint teljesen egyedi felhasználói igények is kielégíthetőek általa (http://en.wikipedia.org/wiki/Vertical_search).

A vertikális keresés esetén tehát az egész keresési folyamat felügyelhetővé válik a tartalmak felkutatásától az indexelésen keresztül a visszakeresésig. Ezekhez saját keresőrobotok és keresőmotorok szükségesek. Nézzük végig a folyamat egyes lépéseit.

A vizsgálathoz használt dokumentumok

A vizsgálathoz használt dokumentumok többfélék lehetnek. Egyrészt elképzelhető, hogy saját dokumentumtárral rendelkezünk: dokumentumok, intranetes oldalak, stb., és ezekkel szeretnénk dolgozni. Ez az egyszerűbb eset.

Bonyolultabb esetben online tartalmakat szeretnénk keresni az érdeklődési területünknek megfelelően. Ekkor egy saját igényeinkre szabott keresőrobotot kell találnunk, amelynek működését mi magunk határozhatjuk meg paraméterezés által. Ezek a fókuszált keresőrobotok csak akkor adják át az oldalt indexelésre, ha meggyőződtek, hogy az oldal a keresett téma szempontjából releváns. Ezt általában különböző módszerek segítségével oldják meg: letöltik az oldalt és elemzik tartalmát, vagy a benne lévő hivatkozásokat dolgozzák fel, vagy általános keresők találataival vetik össze (http://en.wikipedia.org/wiki/Focused_crawler). A kereséshez számos nyílt forráskódú keresőrobotot használhatunk (http://en.wikipedia.org/wiki/Web_crawler#Open-source_crawlers).

A dokumentumok feldolgozása

Amennyiben megvan a dokumentum, úgy azt el kell tárolni későbbi keresés céljából. Többféleképpen eltárolhatunk egy dokumentumot, pontosabban többféleképpen kereshetünk benne attól függően mit tároltunk el.

A következőkben ez utóbbival, a teljes szövegben történő kereséssel foglalkozunk. Teljes szövegű keresésnek hívják azt a technikát, amellyel egy számítógép által tárolt dokumentumban vagy egy egész gyűjteményben, adatbázisban keresünk a keresési kifejezésnek megfelelő dokumentumokat. Teljes szövegű keresés egyáltalán nem újdonság, ilyet használ a legtöbb általános célú kereső is, de ilyennel találkozhatunk a legtöbb szövegszerkesztő alkalmazásban is akkor, mikor egy szóra rákeresünk.

A teljes szövegű keresés legegyszerűbb formája az ún. lineáris keresés, melynek során a minden dokumentumot egyesével megvizsgálunk elejétől a végéig, hogy a keresett kifejezés megtalálható-e benne. Hamar belátható, hogy ez a technika csak kis számú dokumentum esetén hatékony, nagy adatbázis esetén a keresés így sokáig is elhúzódhat. Pl. 10000 nagy dokumentum minden egyes szavának megvizsgálása akár órákig is eltarthat.

Ez utóbbi esetben a hatékony keresés végett a művelet két részre oszlik: indexelésre és keresésre. Az indexelés során a dokumentumok elő-feldolgozáson esnek át: minden szavánál eltárolják magát a szót és esetleg annak dokumentumbeli helyét. Így a keresés már nem a dokumentumok alapján történik, hanem az indexeket felhasználva. Jól felépített indexeknél a fenti példában, ahol 10000 nagy dokumentum volt egy keresés pár ezredmásodperc alatt megvalósítható.

Mivel a most leírt folyamatban az indexelés kulcsszerepet tölt be, érdemes megismerkedni néhány fogalmával, annál is inkább, mert ezek a fogalmak jelennek majd meg a konkrét keresőmotorok leírásaiban.

Az indexelés első fázisában a dokumentumokat szavakra vagy kifejezésekre, ún. tokenekre kell bontani. A dokumentum a számítógép számára csupán byte-ok egymásutánisága, önmagától nem képes benne szavakat felismerni. Ezekre a megfelelő programok képesek. A szavakra bontás során ezek a programok képesek felismerni az egyes szavakat, a központozást, olyan elemeket, amelynek többletjelentése van, mint például egy email cím, telefonszám, vagy internetes cím. Mikor egy szó felismerésre kerül, magán a szón kívül eltárolhatják annak jellemzőit is (nyelvét, kódolását, írásmódját, nyelvi kategóriáját, helyét, hosszát, sorszámát, stb.).

A szavakra bontáshoz először általában fel kell ismerni a dokumentum nyelvét, hiszen ettől függően másképpen kell a szavakat felismerni. A szavak felismerését alapvetően az adott természetes nyelvre jellemző feldolgozási mód határozza meg, ami mind a mai napig egy intenzíven kutatott terület. A feldolgozás során kihívást jelent a szóhatárok felismerése (olyan nyelveknél, ahol a szavakat nem választja el egyértelműen szóköz, mint pl. az arab vagy távol keleti nyelvek), az adott szó nyelvtani besorolása (főnév, határozó, stb.), ugyanannak a szónak többféle formája. Ez utóbbi miatt az indexelésnél általában csak a szótövet tárolják. Nyelvenként meghatározhatók olyan szavak is, amelyek kihagyásra kerülnek, mint például a névelők, melyekből nagyon sok van általában a dokumentumokban, de általában nincsen jelentőségük a keresésekben. Technikai kihívást jelent a dokumentum megfelelő formátumának felismerése, hiszen például egy HTML dokumentumokban felesleges a HTML nyelvi elemeit eltárolni, általában a dokumentum „megjelenő” része az érdekes. Ugyanígy kell figyelembe venni Word, Excel, Powerpoint, LaTeX, pdf, és egyéb formátumokat is. Az intelligens feldolgozás eredményeképpen pedig az is megállapítható egyes esetekben, hogy a dokumentumnak milyen részei vannak, illetve további metainformációk is kinyerhetők belőle.

Az így előállt szavakat tárolják el az indexekben. Általában fordított indexeket használnak és nem normál indexeket, azaz nem azt tárolják, hogy mely dokumentumban milyen szavak fordulnak elő, hanem azt, hogy melyik szó melyik dokumentumban található, és annak melyik részén. Csupán az előfeldolgozásnál építenek normál indexeket, a hatékony és gyors feldolgozás végett.

Mivel az indexek tárolásának célja, hogy megfelelő sebességgel és teljesítménnyel találjuk meg a releváns dokumentumokat egy kereséskor, így nagyon fontos az indexek megfelelő tárolása és tervezése. Az indexek tervezési tulajdonságai:

http://en.wikipedia.org/wiki/Index_%28search_engine%29

Dokumentumok keresése

Az utolsó lépés a dokumentumok keresése. Ez a fenti folyamat szerint egyszerű, hiszen az indexek alapján kell a keresési kifejezésnek megfelelő találatokat megadni. Egy jól felépített indexben a keresés még egy nagy adatbázis esetén is ezredmásodpercek alatt végbemegy. A keresést különböző módon jellemezhetjük. Két jellemzőt szoktak megadni a keresés pontosságára. Egyrészt megadják a keresés során visszaadott releváns találatok számának és az összes releváns találat számának hányadosát. Ez azt jelöli, hogy a keresőmotor mennyire tudja visszaadni a találatokat. A másik jellemző a pontosság, azaz visszaadott releváns találatok és az összes találat hányadosa, azaz mennyire pontos a keresőmotor. Természetesen az a jó, ha mindkét jellemző minél közelebb van a 100%-hoz.

A hibák elsősorban abból fakadnak, hogy indexelés során nem tökéletesen kerültek maghatározásra a szavak a nyelvi feldolgozás során. A keresés hatékonyságát növelhetjük az alábbi technikákkal:

Keresőmotorok

Jelenleg számos olyan nyílt szoftver található, mellyel az egész folyamat lefedhető. A keresőrobotok általában külön vannak, de található olyan keresőmotor, amelyben beépített keresőrobot van. A keresőmotorok azonban általában a dokumentumok indexelését és keresését segítik elő. Általában egyszerű programozási felületet nyújtanak, így könnyen beépülnek más alkalmazásokba. Szolgáltatásaik általában megegyeznek, működésük finomhangolható. Íme néhány gyakrabban használt keresőmotor és azoknak fontosabb tulajdonságai:

Ezek a modern keresőmotorok már több GB-nyi adatot képesek beindexelni óránként, visszakeresési sebességük is ezredmásodpercekben mérhető. Pl. a Sphinx 60 MB/s sebességgel indexszel, és egy 1000000 dokumentumból álló, 1.2 GB-nyi szöveget tartalmazó adatbázisban másodpercenként több mint 500 keresést képes végrehajtani.

Vissza a tartalomjegyzékhez

Új Széchenyi terv
A projekt az Európai Unió támogatásával, az Európai Szociális Alap társfinanszirozásával valósul meg.

A Társadalominformatika: moduláris tananyagok, interdiszciplináris tartalom- és tudásmenedzsment rendszerek fejlesztése az Európai Unió támogatásával, az Európai Szociális Alap társfinanszírozásával, az ELTE TÁMOP 4.1.2.A/1-11/1-2011-0056 projekt keretében valósult meg.
A tananyag elkészítéséhez az ELTESCORM keretrendszert használtuk.