How to Scrape Websites Without Getting Blacklisted or Blocked
Nettsteder som arbeidsstasjoner står overfor et vedvarende problem: deres data blir kontinuerlig truffet av automatiserte bots.
Dataene avsluttes på andre konkurrerende jobbbrett som har stjålet innholdet. Det er et problem som plager et nettsted hvis intellektuelle eiendeler må være offentlig publisert gratis, eller til og med de som har abonnementsmodeller.
Men et Atlanta-basert sikkerhetsselskap som spesialiserer seg på å oppdage bots, har utviklet programvare som kan oppdage disse skjermskrapene
[Videre lesing: Slik fjerner du skadelig programvare fra din Windows-PC]Pramanas hovedprodukt, HumanPresent, oppdager automatiserte bots som for eksempel skriver inn spam i webbaserte skjemaer eller registrerer gratis e-postkontoer som skal brukes til spam.
Pramana har nå utviklet en modul som heter "data mining and screen scraping prevention" for HumanPresent. Det fungerer på mange av de samme prinsippene som hovedproduktet, men har blitt modifisert for data-mining scenarier, sa David Crowder, Pramana's CEO.
HumanPresent kan oppdage bots ved å merke forskjeller i hvordan et menneske normalt ville samhandle med en web side og kontrast det med hvordan bots oppfører seg. Det ser på mer enn 30 beregninger, for eksempel tastaturstreker, museklikk og tidspunktet for disse tiltakene.
HumanPresent ser på enkelttransaksjoner, men data-mining modulen er blitt modifisert for å se på en tidsbestemt periode når enten en bot eller mennesket er på nettstedet, sa Crowder.
Data mining bots pleier å helt omgå en nettleser brukergrensesnitt. For eksempel kan en bot be om en webside med mye og mye data, men ruller aldri eller klikker på en side. Hvis en serie sider åpnes og settes på den måten, kan det bety at en data mining bot er ankommet.
Pramana tildeler en unik ID til den besøkende, og etter å ha analysert besøkendeens adferd kan han ta stilling til om han skal merke den besøkende en bot eller ikke. Det er flere forskjellige måter et nettsted operatør kan velge å håndtere situasjonen.
IP-adressen (Internet Protocol) til botens datamaskin kan være blokkert permanent. En bil auksjon nettsted som tester Pramana data mining modulen bestemte seg for å flytte mistenkte bots til en "sandbox" der den serveres helt falske data.
"De er faktisk data mining - det er bare død feil," Crowder sa.
Andre alternativer inkluderer å spørre besøkende på nettstedet med en utfordring eller en oppgave, som noen roboter ikke klarer å fullføre.
Datautvinning koster selskaper høyt. Bedrifter som selger premiumdata vil finne ut at deres konkurrenter vil kjøpe et abonnement og deretter bruke automatiserte roboter til å stjele dataene for sine egne nettsteder. I et eksempel, et nettsted som har gigabyte med data på brukte bilpriser funnet at deres data var blitt skrapt og var til salgs på eBay.
"De konkurrerer faktisk med sitt eget innhold," sa Crowder. Nettsteder har dårlige design som gjør data skrapende så mye lettere. Den brukte bilplassen hadde nettadresser (Uniform Resource Locators) kunne bli sekventielt endret for å avsløre flere data, sa Crowder.
Data mining modulen vil bli pakket inn i HumanPresent-produktet for nå, men tidlig neste år planlegger Pramana å selge den separat, sa Crowder. Pramana tilbyr HumanPresent enten som en på-premise-apparat eller som en konfigurasjon av programvare-som-tjenesten.
For SaaS (programvare som et tjenestetilbud), er Pramana's teknologi integrert i en webapplikasjon og sesjonsinformasjon sendes tilbake til Pramana for analyse. Crowder sa at Pramana har vært i stand til å kutte betydelig ned på latenstiden i sin nyeste versjon. For kunder som trenger mer fart, er apparatet tilgjengelig.
Snakkes bare om to uker etter introduksjonen av Apples iPhone 3G og App Store, der tredjeparts programvare for det tilbys, leder av enkelte programvare selskaper rapporterte stort antall nedlastinger og proklamerte en ny dag på mobil Internett. Juryen er fortsatt ute om hvorvidt open source-telefonplattformene kommer fra Google og Symbian Foundation, vil kunne samsvare med Apples suksess, ifølge panelerne på TechCrunch Mobile Web Wars-arrangementet i Menlo Park, California, på fredag ettermidd
For eksempel begynte Pandora Media å tilby sin internettradioprogram for de fleste andre mobile plattformer, gjennom operatører, rundt 18 måneder siden, sa Pandora CTO Tom Conrad. Det resulterte i ca 12.000 betalt månedlige abonnement på tjenesten, sa han.
Microsoft kjøper programvare fra Merck & amp; Microsoft har kjøpt programvare fra Merck & Co. for å gjøre Amalga dataaggregat og administrasjonsprogramvare mer nyttig for biovitenskap og farmasøytiske forskere, sier selskapet mandag. .
Microsoft har inngått en avtale om å kjøpe eiendelene til Rosetta Biosoftware, et heleid datterselskap av Merck. Flyttet vil tillate det å legge til funksjoner i Amalga Life Sciences-programvaren for å administrere genetiske, genomiske, metabolomiske og proteoniske forskningsdata.
Alt du ville vite om bots / messaging bots
Det foregår automatisering overalt på internett, og det dukker opp bots og meldingsboter. Hva er de? Les videre for å vite mer.