Car-tech

Google: 129 millioner forskjellige bøker har blitt publisert

Å avsløre den sanne Donald Trump: En ødeleggende anklage for hans virksomhet og liv (2016)

Å avsløre den sanne Donald Trump: En ødeleggende anklage for hans virksomhet og liv (2016)
Anonim

For de som noen gang har lurt på hvor mange forskjellige bøker som er der ute i verden, har Google et svar for deg: 129.864.880, ifølge Leonid Taycher, en Google-programvareingeniør som jobber på Google Bøker-prosjektet.

Estimering av nummeret av bøker i verden er mer enn en øvelse i nysgjerrighet for søkegiganten: Den gir også en køreplan for noe av arbeidet som fortsatt skal gjøres for å møte selskapets ambisiøse mål om å organisere all verdens informasjon.

"Når Du er en del av et selskap som prøver å digitalisere alle bøkene i verden. Det første spørsmålet du ofte får er: "Hvor mange bøker er der ute?", forklarte Taycher i et blogginnlegg som annonserte estimatet.

[Videre lesing: De beste TV-streamingtjenestene]

For å komme frem til en rimelig tilnærming begynte selskapet å innta bokinformasjon fra flere katalogiseringssystemer, som for eksempel International Standard Book Numbers (ISBN).

Slike kataloger gir, når de er nyttige, ikke en endelig telling, derimot. For eksempel har ISBNer bare blitt tildelt bøker siden 1960-tallet, og har en tendens til å bli brukt bare i de vestlige landene.

Også flere bøker har blitt tildelt individuelle ISBN-numre, og utgiver har tildelt ISBN til andre bøker enn bøker, slik som t-skjorter og DVDer.

Så Google-ingeniører har skrevet programmer for å kamme om lag 150 slike kataloger og kataloger, og eliminere så mange duplikatoppføringer som kunne bli funnet.

Selskapet måtte også lage en rekke tøffe beslutninger om hva som er og ikke er en bok, forklarte Taycher.

For eksempel er mykt deksel og hardcover-utgaver av en tekst regnet som to bøker, som er de mange forskjellige versjoner av en populær tekst, for eksempel Shakespeare "Hamlet", på grunn av forordene og kommentarene de kan inneholde. Serier kan regnes som individuelle bøker eller som samlet arbeid.

I juni har selskapet skannet 12 millioner bøker, ifølge en presentasjon gitt av Google Books ingeniør Jon Orwant på USENIXs årlige tekniske konferanse i Boston. Disse bøkene er skrevet på om lag 480 språk (inkludert 3 bøker i Star Trek-originale Klingon-språk).

Selskapet planlegger å fullføre skanning av eksisterende bøker innen tiår. Den resulterende virtuelle samlingen vil bestå av fire milliarder sider og to billioner, sier Orwant.

Omkring 20 prosent av verdens bøker er i det offentlige området, forklarte Orwant. Om lag 10 til 15 prosent av disse bøkene er trykt. De resterende bøkene - det store flertallet av alle titlene - er fortsatt under opphavsrett, men ut av utskrift. Google er i ferd med å låne kopier av disse bøkene for å digitalisere dem, fra rundt 40 store biblioteker over hele verden.

Det handler om skanning i bøker som ikke er skrevet ut, men fortsatt dekket av opphavsrett som er oppfylt med en viss motstand fra forlagsbransjen.

Selskapet venter nå på en dom fra den amerikanske distriktsdomstolen i det sørlige distriktet i New York, om det kan skanne disse bøkene.

I 2005 ble forfattergilde og Foreningen av amerikanske utgivere har separat arkivert søksmål mot søksgiganten og hevdet at selskapet krenker forfatterens opphavsrett ved å skanne i bøkene.

Google har hevdet at den ønsker å selge digitale kopier av disse ellers out-of- skrive bøker og legge til side royalties for forfatterne å kreve. Selskapet håper også å avsløre utdrag av disse bøkene i websøk, og hevder at denne bruken faller under US Fair Use-doktrinen.

Skanning i alle verdens bøker vil føre til andre fordeler i tillegg til å forbedre søk, forklarer Orwant. Når alle disse volumene er digitalisert, kan innholdet bli analysert, noe som kan føre til ny innsikt. Lingvister kan oppdage når bestemte ord kom i utbredt bruk, eller som først begynner å bruke disse ordene.

Google Boksøk kan også bidra til å svare på noen fremragende historiske spørsmål: For eksempel kan det informere debatten om hvorvidt Isaac Newton og Gottfried Leibniz - eller noen andre - oppfunnet kalkulator.

"Vi kan søke ikke bare for en uttrykk men for et konsept, "forklarte Orwant. "Vi kan ta alle de forskjellige måtene [at ideen om uendelighet kan bøyes, oversette det til forskjellige språk, og gjøre et søk parallelt.»

"Mitt håp er at når vi begynner å avsløre mye mer av Denne samlingen vil tillate folk å stille spørsmål som dette, som de ikke har kunnet spørre før, sier han.

IDG News Service-redaktør Juan Carlos Perez bidro til denne rapporten.

Joab Jackson dekker bedriftsprogramvare og generell teknologi bryter nyheter for IDG News Service. Følg Joab på Twitter på @Joab_Jackson. Joabs e-postadresse er [email protected]