Nettsteder

Ny programvare oppdager Bots Scraping Web Site Data

How to Scrape Websites Without Getting Blacklisted or Blocked

How to Scrape Websites Without Getting Blacklisted or Blocked
Anonim

Nettsteder som arbeidsstasjoner står overfor et vedvarende problem: deres data blir kontinuerlig truffet av automatiserte bots.

Dataene avsluttes på andre konkurrerende jobbbrett som har stjålet innholdet. Det er et problem som plager et nettsted hvis intellektuelle eiendeler må være offentlig publisert gratis, eller til og med de som har abonnementsmodeller.

Men et Atlanta-basert sikkerhetsselskap som spesialiserer seg på å oppdage bots, har utviklet programvare som kan oppdage disse skjermskrapene

[Videre lesing: Slik fjerner du skadelig programvare fra din Windows-PC]

Pramanas hovedprodukt, HumanPresent, oppdager automatiserte bots som for eksempel skriver inn spam i webbaserte skjemaer eller registrerer gratis e-postkontoer som skal brukes til spam.

Pramana har nå utviklet en modul som heter "data mining and screen scraping prevention" for HumanPresent. Det fungerer på mange av de samme prinsippene som hovedproduktet, men har blitt modifisert for data-mining scenarier, sa David Crowder, Pramana's CEO.

HumanPresent kan oppdage bots ved å merke forskjeller i hvordan et menneske normalt ville samhandle med en web side og kontrast det med hvordan bots oppfører seg. Det ser på mer enn 30 beregninger, for eksempel tastaturstreker, museklikk og tidspunktet for disse tiltakene.

HumanPresent ser på enkelttransaksjoner, men data-mining modulen er blitt modifisert for å se på en tidsbestemt periode når enten en bot eller mennesket er på nettstedet, sa Crowder.

Data mining bots pleier å helt omgå en nettleser brukergrensesnitt. For eksempel kan en bot be om en webside med mye og mye data, men ruller aldri eller klikker på en side. Hvis en serie sider åpnes og settes på den måten, kan det bety at en data mining bot er ankommet.

Pramana tildeler en unik ID til den besøkende, og etter å ha analysert besøkendeens adferd kan han ta stilling til om han skal merke den besøkende en bot eller ikke. Det er flere forskjellige måter et nettsted operatør kan velge å håndtere situasjonen.

IP-adressen (Internet Protocol) til botens datamaskin kan være blokkert permanent. En bil auksjon nettsted som tester Pramana data mining modulen bestemte seg for å flytte mistenkte bots til en "sandbox" der den serveres helt falske data.

"De er faktisk data mining - det er bare død feil," Crowder sa.

Andre alternativer inkluderer å spørre besøkende på nettstedet med en utfordring eller en oppgave, som noen roboter ikke klarer å fullføre.

Datautvinning koster selskaper høyt. Bedrifter som selger premiumdata vil finne ut at deres konkurrenter vil kjøpe et abonnement og deretter bruke automatiserte roboter til å stjele dataene for sine egne nettsteder. I et eksempel, et nettsted som har gigabyte med data på brukte bilpriser funnet at deres data var blitt skrapt og var til salgs på eBay.

"De konkurrerer faktisk med sitt eget innhold," sa Crowder. Nettsteder har dårlige design som gjør data skrapende så mye lettere. Den brukte bilplassen hadde nettadresser (Uniform Resource Locators) kunne bli sekventielt endret for å avsløre flere data, sa Crowder.

Data mining modulen vil bli pakket inn i HumanPresent-produktet for nå, men tidlig neste år planlegger Pramana å selge den separat, sa Crowder. Pramana tilbyr HumanPresent enten som en på-premise-apparat eller som en konfigurasjon av programvare-som-tjenesten.

For SaaS (programvare som et tjenestetilbud), er Pramana's teknologi integrert i en webapplikasjon og sesjonsinformasjon sendes tilbake til Pramana for analyse. Crowder sa at Pramana har vært i stand til å kutte betydelig ned på latenstiden i sin nyeste versjon. For kunder som trenger mer fart, er apparatet tilgjengelig.