Car-tech

Høftigste superdatamaskiner faller hardest, forsker foreslår

Tомас Инсел: На пути к новому осознанию психических болезней

Tомас Инсел: На пути к новому осознанию психических болезней

Innholdsfortegnelse:

Anonim

Når superdatamaskiner vokser kraftigere, vil de også bli mer utsatt for feil, takket være den økende mengden innebygd komponent. Noen få forskere ved den siste SC12-konferansen i Salt Lake City i Utah tilbød mulige løsninger på dette voksende problemet.

Dagens høyytelsesbaserte databehandlingssystemer (HPC) kan ha 100 000 noder eller mer - med hver knute bygget fra flere komponenter av minne, prosessorer, busser og andre kretser. Statistisk sett vil alle disse komponentene mislykkes på et tidspunkt, og de stopper operasjoner når de gjør det, sa David Fiala, en doktorgradsstudent ved North Carolina State University, under en samtale på SC12.

Problemet er ikke en ny, selvfølgelig. Når Lawrence Livermore National Laboratories 600-node ASCI (Accelerated Strategic Computing Initiative) White supercomputer gikk online i 2001, hadde det en gjennomsnittlig tid mellom feil (MTBF) på bare fem timer, takket være delvis komponentfeil. Senere tuning innsats hadde forbedret ASCI White's MTBF til 55 timer, sier Fiala.

Men da antallet supercomputer noder vokser, så vil problemet. "Det må gjøres noe med dette. Det vil bli verre når vi flytter til exascale," sier Fiala, og viser hvordan supercomputers i det neste tiåret forventes å ha ti ganger den beregningsmakt som dagens modeller gjør.

Dagens teknikker for å håndtere systemfeil kan det ikke skje veldig bra, sa Fiala. Han citerte kontrollpunkt, der et løpende program stoppes midlertidig og tilstanden er lagret på disk. Hvis programmet kolliderer, kan systemet starte jobben fra det siste kontrollpunktet.

NCSUDavid Fiala Problemet med kontrollpunkt, ifølge Fiala, er at når antall noder vokser, er mengden av systemets overhead Trenger å gjøre kontrollpunkt vokser også - og vokser med en eksponentiell hastighet. På en 100.000-nodes supercomputer vil for eksempel bare ca 35 prosent av aktiviteten være involvert i å utføre arbeid. Resten vil bli tatt opp ved hjelp av sjekkpunkter og skal en systemfeiloppdateringsoperasjon, Fiala anslått.

På grunn av all ekstra maskinvare som trengs for eksascale-systemer, som kan bygges fra en million eller flere komponenter, vil systemets pålitelighet ha Fiala sa.

Gamle gode råd: sikkerhetskopiere data

Fiala presenterte teknologi som han og andre forskere utviklet som kan bidra til å forbedre påliteligheten. Teknologien retter seg mot problemet med tause data korrupsjon, når systemer gjør uoppdagede feil ved å skrive data til disk.

I utgangspunktet består forskernes tilnærming av å kjøre flere kopier, eller "kloner" av et program samtidig og sammenligne svarene. Programvaren, kalt RedMPI, kjøres i forbindelse med Message Passing Interface (MPI), et bibliotek for å dele kjørende programmer på flere servere, slik at de ulike delene av programmet kan utføres parallelt.

RedMPI avskjærer og kopierer alle MPI-er melding som et program sender, og sender kopier av meldingen til klonen (eller klonene) av programmet. Hvis forskjellige kloner beregner forskjellige svar, kan tallene beregnes på nytt, noe som vil spare tid og ressurser fra å kjøre hele programmet på nytt.

"Implementering av redundans er ikke dyrt. Det kan være høyt i antall kjerntall som trengs, men det unngår behovet for omskrivninger med kontrollpunktet på nytt, sier Fiala. "Alternativet er selvfølgelig å bare gjenopprette jobber til du tror du har det riktige svaret."

Fiala anbefalte å kjøre to sikkerhetskopier av hvert program, for tredobbelt redundans. Selv om du kjører flere kopier av et program, vil det i utgangspunktet ta opp flere ressurser, over tid kan det faktisk være mer effektivt, fordi programmer ikke trenger å bli gjenopprettet for å sjekke svarene. Det kan også hende at det ikke trengs kontrollpunkt når flere kopier kjøres, noe som også vil spare på systemressurser.

UCSCEthan Miller

"Jeg tror ideen om å gjøre redundans er faktisk en god ide." [For] svært store beregninger, som involverer hundretusener av noder, er det absolutt en sjanse for at feilene vil krype inn, sier Ethan Miller, en datavitenskapelig professor ved University of California Santa Cruz, som deltok i presentasjonen. Men han sa at tilnærmingen ikke kan være egnet gitt mengden nettverkstrafikk som en slik redundans kan skape. Han foreslo å kjøre alle applikasjonene på samme sett med noder, noe som kunne minimere internodetrafikk. I en annen presentasjon presenterte Ana Gainaru, en Ph.D-student fra University of Illinois i Urbana-Champaign, en teknikk for å analysere logg filer for å forutsi når systemfeil skulle oppstå.

Arbeidet kombinerer signalanalyse med data mining. Signalanalyse brukes til å karakterisere normal oppførsel, så når det oppstår en feil, kan det lett oppdages. Data mining ser etter korrelasjoner mellom separate rapporterte feil. Andre forskere har vist at flere feil er noen ganger korrelert med hverandre, fordi en fiasko med en teknologi kan påvirke ytelsen i andre, ifølge Gainaru. For eksempel, når et nettverkskort mislykkes, vil det snart hoble andre systemprosesser som er avhengige av nettverkskommunikasjon.

Forskerne fant at 70 prosent av korrelerte feil gir et mulighetsvindu på mer enn 10 sekunder. Med andre ord, når det første tegn på feil har blitt oppdaget, kan systemet ha opptil 10 sekunder for å lagre arbeidet, eller flytte arbeidet til en annen knutepunkt før en mer kritisk feil oppstår. "Misligholdsprognose kan slås sammen med andre feiltoleranse teknikker," sier Gainaru.

Joab Jackson dekker enterprise software og generell teknologi breaking news for

IDG News Service. Følg Joab på Twitter på @Joab_Jackson. Joabs e-postadresse er [email protected]