Normalean, programa horiek Webean pertsona bat nabigatzen dutela simulatzen dute, HTTP protokoloa eskuz erabilita, edo nabigatzaile bat aplikazio batean txertatuz.
Azken urteotan, web-scraping-a asko erabiltzen da web-posizionamenduaren sektorean, kalitatezko edukiak sortzeko datu kopuru handiak jaso eta antolatzeko dituen gaitasunarengatik.
Teknikak
- Pertsonen bidez egindako "kopiatu eta itsatsi": batzuetan web-scraping-eko teknika onenak ere ezin ditu lortu pertsona batek eskuzko azterketan lortzen duena, eta beste batzuetan hori izaten da irtenbide onena webgune horrek software automatizatuarekin kontsultak egiteko oztopoak jartzen baditu.
- Adierazpen erregularrak erabiltzea: Egokia izan daiteke kasu batzuetan, nahiz eta normalean ez den gomendatzen HTML formatuak analizatzeko.
- HTTP protokoloa: web orrialde estatiko eta dinamikoak lor daitezke socket-ak erabiliz urruneko zerbitzariari HTTP eskaerak eginez.
- Datu-meatzaritzako algoritmoak: webgune askotan orri asko dinamikoki sortuta dituzte datu-base batetik abiatuta. Datu kategoria berean agertzen, normalean, antzeko orriak erabiliz , gidoi edo txantiloi bat. Datu-meatzaritzako teknikak erabiliz detektatu daitezke antzeko egitura duten orri ugari horiek, bertan dauden txantiloiak antzeman eta eduki horiek erauzi.
- HTML analizatzaileak: XQuery eta HTQL lengoaiek, adibidez, erabili daitezke HTML dokumentuak analizatzeko, edota horien edukiak berreskuratu eta eraldatzeko.
- Web-scraping-rako aplikazio komertzialak: irtenbide pertsonalizatuak egiteko badira web-scraping egiteko hainbat aplikazio eskuragarri. Aplikazio horiek automatikoki ezagutzen dute orri-egitura jakin bat, edo interfaze bat eskaintzen diote erabiltzaileri orrietako eremu interesgarriak zein diren aukeratzeko. Horrela zeregin horiek egiteko ez da beharrezkoa kodea eskuz idaztea.
- Informazio semantikoa antzematea: aztertu nahi diren orrietan egon daitezke metadatuak edo zenbait informazio semantiko erabilgarriak. Horrelako oharrik baldin badago, mikroformatuak esaterako, horiek erabilgarriak izan daitezke dokumentuaren DOMa analizatzerakoan.
Urratsak scraper-rak geldiarazteko
Administratzaileak hainbat teknika erabil ditzake webgune batean scraperren eskaerak geldiarazteko edo oztopatzeko:
- Gehitu sarrerak robots.txt fitxategiari. Google eta beste bot batzuk geldiarazi daitezke horrela.
- IP helbidea blokeatzea. Erabiltzaileek ezingo dira nabigatu helbide horretatik.
- Desgaitu webguneak eskaintzen duen edozein API.
- Bot edo scraper batzuek erazagutzen dute nor diren, eta horri esker, blokeatuak izan daiteke, esaterako "googlebot".
- IP helbide jakin baten gehiegizko trafikoa detektatzea.
- Captcha bat gehitzea web gunean, edo bestelako egiaztapen-sistemaren bat. Ez da bermatzen blokeo osoa lortuko dela, baina oztopatu egiten da neurri batean.
- Bot-en aurkako zerbitzu komertzialak: enpresa batzuek antibot eta antiscraping zerbitzuak eskaintzen dituzte.
- JavaScript eta AJAX maizago erabiltzea. Horrela zailagoa izango da scraperrentzat nabigatzaile arruntaren eskaerak simulatzea.
Tresna nabarmenak
- Apache Camel
- Automation Anywhere
- Convertigo
- cURL
- Data Toolbar
- Firebug
- Greasemonkey
- HtmlUnit
- Node.js
- HTTrack
- iMacros
- Aptana Jaxer
- nokogiri
- watir
- Wget
- WSO2 Mashup Server
- HtmlAgilityPack
- BeautifulSoup
- Scrapy
Ikus ere bai
Erreferentziak
Kanpo estekak
This article uses material from the Wikipedia Euskara article Web scraping, which is released under the Creative Commons Attribution-ShareAlike 3.0 license ("CC BY-SA 3.0"); additional terms may apply (view authors). Eduki guztia CC BY-SA 4.0(r)en babespean dago, ez bada kontrakoa esaten. Images, videos and audio are available under their respective licenses.
®Wikipedia is a registered trademark of the Wiki Foundation, Inc. Wiki Euskara (DUHOCTRUNGQUOC.VN) is an independent company and has no affiliation with Wiki Foundation.