Een metasearch-engine (of zoekaggregator) is een online hulpmiddel voor het ophalen van informatie dat de gegevens van een webzoekmachine gebruikt om zijn eigen resultaten te produceren. Metasearch-engines nemen input van een gebruiker en bevragen zoekmachines onmiddellijk voor resultaten. Er worden voldoende gegevens verzameld, gerangschikt en aan de gebruikers gepresenteerd.
Problemen zoals spammen verminderen de nauwkeurigheid en precisie van resultaten. Het fusieproces heeft tot doel de engineering van een metasearch-engine te verbeteren.
Voorbeelden van metasearch-engines zijn Gaspedaal.nl, hotbot moteur de recherche, Startpage.com (voorheen Ixquick.com), Wifi, Skyscanner en Kayak.com. De laatste twee voegen zoekresultaten van online reisbureaus en websites van providers samen. Excite voegt resultaten van internetzoekmachines samen. Daarnaast zijn er ook andere zoekmachines, sommigen doorzoeken videos a.d.h.v. metatags, anderen social websites, zoals Facebook, Twitter, WhatsApp, TikTok en Instagram.
Geschiedenis
De eerste persoon die het idee van meta-zoeken opnam, was Daniel Dreilinger van de Colorado State University. Hij ontwikkelde SearchSavvy, waarmee gebruikers tot wel 20 verschillende zoekmachines en directories tegelijk kunnen doorzoeken. Hoewel de zoekmachine snel was, bleef hij beperkt tot eenvoudige zoekopdrachten en was hij dus niet betrouwbaar. Eric Selberg, student aan de Universiteit van Washington, heeft een meer “bijgewerkte” versie uitgebracht, genaamd MetaCrawler. Deze zoekmachine verbeterde de nauwkeurigheid van SearchSavvy door achter de schermen zijn eigen zoeksyntaxis toe te voegen en de syntaxis af te stemmen op die van de zoekmachines die hij zocht. Metacrawler heeft het aantal zoekmachines teruggebracht tot 6, maar hoewel het nauwkeurigere resultaten opleverde, werd het nog steeds niet zo nauwkeurig beschouwd als het doorzoeken van een zoekopdracht in een individuele engine.
Op 20 mei 1996 was HotBot, toen eigendom van Wired, een zoekmachine met zoekresultaten afkomstig uit de Inktomi- en Direct Hit-databases. Het stond bekend om zijn snelle resultaten en als zoekmachine met de mogelijkheid om binnen zoekresultaten te zoeken. Na in 1998 door Lycos te zijn gekocht, vertraagde de ontwikkeling van de zoekmachine en daalde het marktaandeel drastisch. Na een paar wijzigingen te hebben doorgevoerd, werd HotBot opnieuw ontworpen in een vereenvoudigde zoekinterface, waarbij de functies werden opgenomen in het herontwerp van de Lycos-website.
Een metasearch-engine genaamd Anvish werd in 1999 ontwikkeld door Bo Shu en Subhash Kak; de zoekresultaten werden gesorteerd op basis van instant getrainde neurale netwerken. Dit werd later opgenomen in een andere metasearch-engine genaamd Solosearch.
In augustus 2000 kreeg India zijn eerste meta-zoekmachine toen HumHaiIndia.com werd gelanceerd. Het is ontwikkeld door de toen 16-jarige Sumeet Lamba. De website werd later omgedoopt tot Tazaa.com.
Ixquick is een zoekmachine die bekend stond om zijn privacyverklaring. Het werd in 1998 ontwikkeld en gelanceerd door David Bodnick en is eigendom van Surfboard Holding BV. In juni 2006 begon Ixquick privégegevens van zijn gebruikers te verwijderen volgens hetzelfde proces met Scroogle. Het privacybeleid van Ixquick omvat geen registratie van IP-adressen van gebruikers, geen identificerende cookies, geen verzameling van persoonlijke gegevens (data) en geen uitwisseling van persoonlijke gegevens met derden. Het maakt ook gebruik van een uniek classificatiesysteem waarbij een resultaat wordt gerangschikt op basis van sterren. Hoe meer sterren in een resultaat, hoe meer zoekmachines het over het resultaat eens waren.
In april 2005 werkte Dogpile, destijds eigendom van en beheerd door InfoSpace, Inc., samen met onderzoekers van de University of Pittsburgh en Pennsylvania State University om de overlappingen en rangschikkingsverschillen van toonaangevende webzoekmachines te meten om de voordelen van het gebruik van een metazoeksysteem te meten. engine om op internet te zoeken. Uit de resultaten bleek dat van 10.316 willekeurige, door de gebruiker gedefinieerde zoekopdrachten van Google, Yahoo! en Ask Jeeves, slechts 3,2% van de zoekresultaten op de eerste pagina hetzelfde was in die zoekmachines voor een bepaalde zoekopdracht. Een andere studie later dat jaar met 12.570 willekeurige, door de gebruiker gedefinieerde zoekopdrachten van Google, Yahoo !, MSN Search en Ask Jeeves, vond dat slechts 1,1% van de zoekresultaten op de eerste pagina hetzelfde was in die zoekmachines voor een bepaalde zoekopdracht.
Voordelen
Door meerdere zoekopdrachten naar verschillende andere zoekmachines te sturen, worden de dekkingsgegevens van het onderwerp uitgebreid en kan meer informatie worden gevonden. Ze gebruiken de indexen die door andere zoekmachines zijn gebouwd, waarbij resultaten op unieke manieren worden geaggregeerd en vaak ook na verwerking worden verwerkt. Een metasearch-engine heeft een voordeel ten opzichte van een enkele zoekmachine, omdat met dezelfde inspanning meer resultaten kunnen worden opgehaald. Het vermindert ook het werk van gebruikers doordat ze zoekopdrachten van verschillende engines afzonderlijk moeten typen om naar bronnen te zoeken.
Metasearching is ook een nuttige benadering als het doel van de zoekopdracht van de gebruiker is om een overzicht van het onderwerp te krijgen of om snel antwoorden te krijgen. In plaats van meerdere zoekmachines zoals Yahoo! of Google en resultaten vergelijken, kunnen metasearch-engines snel resultaten verzamelen en combineren. Ze kunnen dit doen door de resultaten van elke engine op te vragen zonder aanvullende nabewerking (Dogpile) of door de resultaten te analyseren en ze te rangschikken volgens hun eigen regels (IxQuick, Metacrawler en Vivismo).
Een metasearch-engine kan ook het IP-adres van de zoeker verbergen voor de zoekmachines, waardoor privacy wordt geboden aan de zoekopdracht. Het is met het oog hierop dat de Franse regering in 2018 heeft besloten dat alle zoekopdrachten van de regering moeten worden uitgevoerd met Qwant, waarvan wordt aangenomen dat het een metasearch-engine is.
Nadelen
Metasearch-engines kunnen queryformulieren niet parseren of de syntaxis van queries volledig vertalen. Het aantal hyperlinks dat door metasearch-engines wordt gegenereerd, is beperkt en biedt de gebruiker daarom niet de volledige resultaten van een zoekopdracht.
De meeste metasearch-engines bieden niet meer dan tien gekoppelde bestanden van een enkele zoekmachine en werken in het algemeen niet samen met grotere zoekmachines voor resultaten. Pay-per-click-links krijgen prioriteit en worden normaal gesproken als eerste weergegeven.
Metasearching wekt ook de illusie dat er meer aandacht is voor het onderzochte onderwerp, vooral als de gebruiker op zoek is naar populaire of alledaagse informatie. Het is gebruikelijk om te eindigen met meerdere identieke resultaten van de ondervraagde engines. Het is ook moeilijker voor gebruikers om te zoeken met geavanceerde zoeksyntaxis om met de zoekopdracht te worden verzonden, dus de resultaten zijn mogelijk niet zo nauwkeurig als wanneer een gebruiker een geavanceerde zoekinterface gebruikt bij een specifieke engine. Dit resulteert in veel metasearch-engines die eenvoudig zoeken gebruiken.
Operatie
Een metasearch-engine accepteert één zoekverzoek van de gebruiker. Dit zoekverzoek wordt dan doorgegeven aan de database van een andere zoekmachine. Een metasearch-engine maakt geen database met webpagina’s, maar genereert een federatief databasesysteem voor gegevensintegratie uit meerdere bronnen.
Omdat elke zoekmachine uniek is en verschillende algoritmen heeft voor het genereren van gerangschikte gegevens, zullen er dus ook duplicaten worden gegenereerd. Om duplicaten te verwijderen, verwerkt een metasearch-engine deze gegevens en past het zijn eigen algoritme toe. Een herziene lijst wordt geproduceerd als output voor de gebruiker. Wanneer een metasearch-engine contact maakt met andere zoekmachines, reageren deze zoekmachines op drie manieren:
- Ze zullen allebei samenwerken en volledige toegang bieden tot de interface voor de metasearch-engine, inclusief privétoegang tot de indexdatabase, en de metasearch-engine informeren over eventuele wijzigingen in de indexdatabase;
- Zoekmachines kunnen zich op een niet-coöperatieve manier gedragen, waarbij ze interfaces niet zullen weigeren of toegang zullen verlenen;
- De zoekmachine kan volledig vijandig zijn en de metasearch-engine totale toegang tot hun database en in ernstige omstandigheden weigeren door naar legale methoden te zoeken.
Architectuur van ranking
Webpagina’s die hoog op de ranglijst staan van veel zoekmachines zijn waarschijnlijk relevanter voor het verstrekken van nuttige informatie. Alle zoekmachines hebben echter verschillende scores voor elke website en meestal zijn deze scores niet hetzelfde. Dit komt omdat zoekmachines voorrang geven aan verschillende criteria en methoden voor het scoren, waardoor een website hoog gerangschikt kan lijken op één zoekmachine en laag gerangschikt op een andere. Dit is een probleem omdat Metasearch-engines sterk afhankelijk zijn van de consistentie van deze gegevens om betrouwbare accounts te genereren.
Fusion
Een metasearch-engine gebruikt het Fusion-proces om gegevens te filteren voor efficiëntere resultaten. De twee belangrijkste gebruikte fusiemethoden zijn: Collection Fusion en Data Fusion.
- Collection Fusion: ook bekend als gedistribueerd ophalen, houdt zich specifiek bezig met zoekmachines die niet-verwante gegevens indexeren. Om te bepalen hoe waardevol deze bronnen zijn, kijkt Collection Fusion naar de inhoud en rangschikt vervolgens de gegevens over hoe waarschijnlijk het is dat het relevante informatie met betrekking tot de zoekopdracht geeft. Van wat wordt gegenereerd, kan Collection Fusion de beste bronnen uit de ranglijst kiezen. Deze gekozen bronnen worden vervolgens samengevoegd in een lijst.
- Data Fusion: behandelt informatie die is opgehaald van zoekmachines en die algemene datasets indexeert. Het proces lijkt erg op elkaar. De eerste rangscores van gegevens worden samengevoegd in één lijst, waarna de oorspronkelijke rangorde van elk van deze documenten wordt geanalyseerd. Gegevens met hoge scores duiden op een hoge mate van relevantie voor een bepaalde zoekopdracht en worden daarom geselecteerd. Om een lijst te maken, moeten de scores worden genormaliseerd met algoritmen zoals CombSum. Dit komt omdat zoekmachines verschillende algoritmenbeleid hanteren, waardoor de geproduceerde score onvergelijkbaar is.
Spamdexing
Spamdexing is het opzettelijk manipuleren van indexen van zoekmachines. Het gebruikt een aantal methoden om de relevantie of bekendheid van geïndexeerde bronnen te manipuleren op een manier die niet is afgestemd op de bedoeling van het indexeringssysteem. Spamdexing kan erg vervelend zijn voor gebruikers en problematisch voor zoekmachines omdat de geretourneerde inhoud van zoekopdrachten een slechte precisie heeft. Dit zal er uiteindelijk toe leiden dat de zoekmachine onbetrouwbaar wordt en niet betrouwbaar voor de gebruiker. Om Spamdexing aan te pakken, worden algoritmen voor zoekrobots complexer gemaakt en worden ze bijna elke dag gewijzigd om het probleem op te lossen.
Het is een groot probleem voor metasearch-engines omdat het knoeit met de indexcriteria van de webcrawler, waarop sterk wordt vertrouwd bij het opmaken van ranglijsten. Spamdexing manipuleert het natuurlijke classificatiesysteem van een zoekmachine en plaatst websites hoger op de ranglijst dan ze van nature zouden zijn. Hiervoor zijn drie primaire methoden:
Contentspam
Contentspam zijn de technieken die de logische weergave veranderen die een zoekmachine heeft over de inhoud van de pagina. Technieken zijn onder meer:
- Sleutelwoordvulling – Berekende plaatsingen van zoekwoorden op een pagina om het aantal zoekwoorden, de variëteit en de dichtheid van de pagina te verhogen
- Verborgen / onzichtbare tekst – Niet-verwante tekst vermomd door deze dezelfde kleur te geven als de achtergrond, een kleine lettergrootte te gebruiken of deze te verbergen in de HTML-code
- Metatag-vulling – het herhalen van zoekwoorden in metatags en / of het gebruik van zoekwoorden die geen verband houden met de inhoud van de site
- Doorway Pages – Webpagina’s van lage kwaliteit met weinig inhoud, maar herkenbare trefwoorden of woordgroepen
- Scraper Sites – Programma’s waarmee websites inhoud van andere websites kunnen kopiëren en inhoud voor een website kunnen maken
- Spinnen van artikelen – Herschrijven van bestaande artikelen in tegenstelling tot het kopiëren van inhoud van andere sites
- Machinevertaling – Gebruikt machinevertaling om inhoud in verschillende talen te herschrijven, wat resulteert in onleesbare tekst
Linkspam
Linkspam zijn links tussen pagina’s die om andere redenen dan verdienste aanwezig zijn. Technieken zijn onder meer:
- Linkbuilding Software – Automatisering van het zoekmachineoptimalisatieproces (SEO)
- Link Farms – Pagina’s die naar elkaar verwijzen (ook bekend als wederzijdse bewonderingsverenigingen)
- Verborgen links – Hyperlinks plaatsen waar bezoekers ze niet kunnen of kunnen zien
- Sybil Attack – Het vervalsen van meerdere identiteiten voor kwaadaardige bedoelingen
- Spamblogs – Blogs die uitsluitend zijn gemaakt voor commerciële promotie en het doorgeven van koppelingsautoriteit naar doelsites
- Page Hijacking – Het maken van een kopie van een populaire website met vergelijkbare inhoud, maar leidt websurfers om naar niet-gerelateerde of zelfs kwaadaardige websites
- Verlopen domeinen kopen – Verlopen domeinen kopen en pagina’s vervangen door links naar niet-gerelateerde websites
- Cookie Stuffing – Het plaatsen van een affiliate tracking cookie op de computer van een websitebezoeker zonder hun medeweten
- Forum Spam – Websites die door gebruikers kunnen worden bewerkt om links naar spam-sites in te voegen
Cloaking
Dit is een SEO-techniek waarbij verschillende materialen en informatie naar de webcrawler en de webbrowser worden gestuurd. Het wordt vaak gebruikt als een spamdexing-techniek omdat het zoekmachines kan misleiden tot het bezoeken van een site die wezenlijk verschilt van de beschrijving van de zoekmachine of het geven van een bepaalde site een hogere ranking.
Hulpbronnen:
Metazoekmachine