Car-tech

Cloudera Preps Hadoop for Enterprise

Cloudera's Distribution for Hadoop

Cloudera's Distribution for Hadoop
Anonim

Cloudera har avslørt et nytt sett av Hadoop-styringsverktøy, kalt Cloudera Enterprise, som selskapet vil tilby for et årlig tegningsgebyr, annonserte det på tirsdag. Den har også oppdatert sin open source distribusjonspakke av Hadoop.

Både nye utgivelser, samt flere nye partnerskap med leverandører av data management software leverandører, viser at selskapet gir opp for å tilby den fremvoksende databaseteknologien - nå mest brukt av webgigantene som Google og Yahoo - til bedriftsmarkedet som et alternativ til relationsdatabaser.

"Vår innsats er ikke bare de store nettbedriftene, men banker, sykehus og forsikringsselskaper vil oppdage at de trenger å analysere komplekse og strukturerte data sammen, og Hadoop ble laget for det, sier Cloudera CEO Mike Olson. "Hadoop løser et nytt problem på en ny måte."

Et av et voksende antall ikke-SQL- eller NoSQL-databaser, Hadoop er basert på Google MapReduce, et rammeverk for behandling av data parallelt på tvers av et stort antall datamaskiner noder. Hadoop, som nå utvikles som et open source-prosjekt av Apache Software Foundation, tilbyr et alternativ til tradisjonelle relasjonsdatabaser, i hvert fall de tilfellene med å analysere store, raskt skiftende datasett.

Det kan fungere med både SQL og ikke- -SQL-data, og er mer motstandsdyktig mot serverfeil enn relasjonsdatabaser, sier Olson.

Cloudera er emballasje Hadoop for midlevel-organisasjoner, både med Hadoop-distribusjonen og det nylig utgitte settet med styringsverktøy. Begge pakkene skal tillate organisasjoner uten mye teknisk teknisk erfaring i Hadoop å kjøre programvaren, sa Olson. "Det er denne myten at Hadoop er brukbar hvis du har Google-skalerte data. Det er mange brukere som bare har noen få terabyte data som de ønsker å analysere," sa Olson.

Cloudera's Distribution for Hadoop (CDH) er en åpen kildekodepakke med forhåndsintegrerte programvareprogrammer bygget rundt Hadoop Common, tidligere kalt Hadoop Core. Pakken inneholder: Hive, som gir en data warehouse infrastruktur; HBase, databasen underliggende Hadoop; Gris, en kompilator for kart-redusere programmer; Zookeper, en planlegging for å kjøre applikasjoner på flere servere, og MapReduce.

I den nylig utgitte versjonen 3 inneholder pakken tre programmer som selskapet har gitt ut som open source-prosjekter, under Apache V2 open source-lisensen. Den ene er Flume, som kan hjelpe til med lasting av data til Hadoop. Et annet nytt tillegg er Oozie, som er en arbeidsflytstyringsprogramvare. Den siste er Hadoop User Environment (HUE) -koden, som gir et brukergrensesnitt for å administrere Hadoop.

"HUE gjør at noen kan bygge en applikasjon rettet mot analytikere. Den vet hvordan man skal snakke med Hadoop-klyngene," sa Olson.

Cloudera Enterprise-pakken utvider CDH-versjon 3 med ekstra styringsverktøy. Denne nye programvaren, som ikke er åpen kildekode, tillater administratorer å kontrollere tilgangshåndtering ved bruk av Lightweight Directory Access Protocol. Programmer er også tilveiebragt for å tilveiebringe ressurser, å utføre konfigurasjons- og ytelsesovervåking.

Olson ville ikke diskutere hvor mye Cloudera har gjort fra abonnements- og konsulentkostnader hittil, men bemerker at første kvartal 2010 gjorde selskapet så mye som hva det oppnådde i løpet av halvåret 2009. I ulike bransjer har finansielle tjenester, telekommunikasjon, detaljhandel, regjerings- og web-handelsvirksomhet vist interesse for teknologien, sier Olson.

"Det som bedrifter gjør med Hadoop varierer. Generelt, disse personene fanger mye data fra mange steder og trenger å utsette det for sofistikert analyse, sier Olson. "Finansielle tjenester er interessert i å bruke Hadoop for å oppdage svindeloppdagelse. I telekommunikasjon er det et reelt behov for å optimalisere nettverk og redusere churn av kunder."

I tillegg til å tilby disse pakkene, har Cloudera støttet Hadoop fra leverandørene av business intelligence (BI) og datahåndteringsprogramvare. Olson planlegger å annonsere under sitt innspill på Hadoop Summit 2010, som finner sted i Santa Clara, California på tirsdag, vil BI-leverandøren MicroStrategy støtte Hadoop-bruk.

En annen ny partner er Talend, en leverandør av data for dataintegrasjon av åpen kildekode. Selskapet har utvidet sin Talend Integration Suite til grensesnitt med Hadoop databaser. Suiten gir administratorer mulighet til å administrere og samle flere datakilder fra en enkelt konsoll. Med Hadoop, kan programvaren "nativt sette inn eller hente data, og behandle dataene i Hadoop-arkitekturen," sier Talend Vice President for markedsføring, Yves de Montcheuil.

Mikrostrategi og Talend blir med i et økende antall selskaper som prepping open source eller kommersielle styringsverktøy for Hadoop. I forrige uke har Cloudera og Quest igangsatt et prosjekt for å bygge programvare som kan koble Hadoop med Oracle-databaser. I mai offentliggjorde Business Intelligence Company Pentaho at sin BI-pakke ville fungere med Hadoop-databaser. I et separat intervju med IDG News Service påpekte Yahoo CTO Raymie Stata at Hadoop kunne redusere behovet for å bygge superdatamaskiner å analysere store datasett. Tradisjonelt er store datasett flyttet fra lagring til supercomputer, som er et samlingssett av servere som skal analyseres. I motsetning hevder Hadoop den analytiske beregningen til hvor dataene ligger, og eliminerer behovet for en sentral, gigantisk nummerbruddsmaskin. Yahoo var en tidlig ledende bidragsyter til Hadoop.

I tillegg til Cloudera-tilbudet ble Hadoop også kommersialisert av IBM, som nylig begynte å tilby et sett analytiske tjenester som bruker teknologien.

Joab Jackson dekker enterpise-programvare og generelle teknologi bryter nyheter for

IDG News Service

. Følg Joab på Twitter på @Joab_Jackson. Joabs e-postadresse er [email protected]