Windows

Facebooks store dataplaner inkluderer varehus, raskere analyse

Post me naam kaise laye?//Facebook fast follower growth // Real Follower//Fbstore/Sonu Rajput

Post me naam kaise laye?//Facebook fast follower growth // Real Follower//Fbstore/Sonu Rajput
Anonim

Facebook kan verdsette dataene den har på sine en milliard-plus-brukere for annonseringsavkastningen, men Analysen som nettstedet utfører på disse dataene, forventes å fortsette å utgjøre mange utfordringer i løpet av det kommende året, sa en ingeniør. Problemene, som Facebook har blitt tvunget til å gripe med "mye raskere enn den bredere industrien" ut mer effektive måter å behandle brukeradferd på nettstedet, hvordan du bedre får tilgang til og konsoliderer ulike typer data på tvers av Facebooks flere datasentre, og utvikler nye open source-programvare for å behandle dataene, Ra vi Murthy, som forvalter Facebooks analytiske infrastruktur, sa tirsdag.

"Facebook er et dataselskap, og det mest åpenbare det folk tenker på på den siden, er annonser rettet mot," sa han på en industrikonferanse i San Francisco under en

[Les videre: De beste TV-streamingtjenestene]

"Men det går dypere enn dette," sa han.

Et stort område av Bak-scenes arbeid relaterer seg til Facebooks analyseinfrastruktur, som er utformet for å akselerere produktutvikling og forbedre brukeropplevelsen gjennom dyp analyse av alle tilgjengelige data, enten det består av handlinger som brukerne tar på nettstedet som posteringsstatusoppdateringer eller som applikasjoner de bruker innen Facebook på forskjellige enheter.

Facebook bruker for øyeblikket flere forskjellige open source-programvare systemer kjent som Hadoop, Corona og Prism til å behandle og analysere dataene, som selskapet vil fokusere på å lage raskere og mer effektiv i løpet av de neste seks til tolv månedene, sier Murthy.

Mange av selskapets utfordringer er knyttet til hva Facebook refererer til som datalager, som kombinerer data fra flere kilder til en database der brukeraktivitet kan analyseres Samlet sett, for eksempel ved å gi en daglig rapport om antall bilder som er merket i et bestemt land, eller å se på hvor mange brukere i et bestemt område som er involvert med sider som ble anbefalt til dem.

Analysen er designet for å optimalisere brukeropplevelsene og finne ut hva brukerne liker og ikke liker, men det blir også mer beskattende siden Facebook kan få tilgang til flere og flere data om sine brukere, sier Murthy. For øyeblikket tar Facebook-lageret inn 500 terabyte nye data hver dag, eller 500 000 gigabyte. Lageret har vokst nesten 4000 ganger i størrelse de siste fire årene, "langt foran Facebooks brukervekst," sa Murthy.

For å håndtere disse problemene har Facebook utviklet sitt Prism-programvare, som er designet for å utføre viktige analysefunksjoner på tvers av selskapets datasentre over hele verden, og delt opp analysene i "biter," sa Murthy. På den måten vil det ikke bli tilstoppet lageret mer generelt når det gjelder å utføre en analyse på, for eksempel, noen metriske relatert til brukerens nyhetsfeed.

"Vi tenker mer og mer på hvordan å fange disse dataene," sa han. > Selskapet jobber også med et system som tar en helt annen tilnærming til å spørre varehuset for å gi svarstid innen få sekunder, sier Murthy.

Et annet område Facebook ser kontinuerlig på å forbedre sin transaksjonsinfrastruktur, "Som håndterer den mer grunnleggende, daglige databehandlingen av, si, liker, kommentarer og statusoppdateringer for å holde det sosiale nettverket kjørt jevnt. Noen av spørsmålene som selskapets ingeniører og analytikere ser på, er å finne ut hvordan man kan prognose den faktiske veksten i denne typen data, og hvor mye databehandling Facebook egentlig ville tildele det, sa Murthy.

"Kan vi forutsi hva det skal være seks måneder fra nå?" Sa han.

Samtidig er Facebook også involvert i en langsiktig innsats for å gjøre sine fysiske servere mer effektive. Selskapet startet sin Open Compute Project i 2011, med målet om å designe modulariserte servere som gir kundene større kontroll over nettverk, minne, strømforsyninger og andre komponenter som går inn i sine servere. Det ble utvidet til å innlemme ARM-prosessorer i januar.