Uutiset

Lauantai, Helmikuu 2, 2013

Käyttövirhe useammin kuin laitevika

Kun virtuaalijärjestelmissä ilmenee ongelmia, vika ei usein olekaan laitteistossa, vaan käyttövirheessä. Monesti virtuaaliympäristön hallinnoinnissa ja rutiineissa on puutteita.

Kirjoittanut Jyri Pohja, Ibas Kroll Ontrack Oy

Yrityksen tietojärjestelmän kaatuessa työaikaa kuluu hukkaan, tuottavuus laskee ja usein joudutaan turvautumaan kalliiseen asiantuntija-apuun. Lisäksi yrityksen maine voi kärsiä ja tyytymättömät asiakkaat saattavat vaihtaa kilpailijan palveluihin.

Perinteisissä, dedikoiduissa tietojärjestelmissä kolme neljästä tietojen menettämiseen johtavasta ongelmasta perustuu laitevikoihin. Virtuaalitekniikkaa hyödyntävässä tietojärjestelmässä suhde on toisen näköinen. Jopa kuusi ongelmaa kymmenestä on käyttäjien aiheuttamia.

Vahinkoja sattuu ja niihin varautuminen vaatii muutakin kuin hyviä suunnitelmia ja innovatiivista teknologiaa. Harkitut toimintatavat, yhteistyö asianmukaisten tahojen kanssa sekä ennalta määrätyt vastuualueet ovat oleellisia. Asianmukainen selviytymissuunnitelma ei ole hyväksyttävä syy laiminlyödä varotoimia. Arvokasta aikaa menetetään kun huomataan, että varmuuskopio on korruptoitunut tai täysin käyttökelvoton.

Esimerkkejä ongelmatilanteista:

Ibas Kroll Ontrackilla olemme kohdanneet useita tapauksia, joissa työntekijät tuhoavat tietoja joko vahingossa tai tarkoituksella:

  • Eräässä yrityksessä huomattiin, ettei virtuaalipalvelin saanut yhteyttä tallennusjärjestelmään. Ympäristöön kuului 40 virtuaalikonetta, joissa oli eri käyttöjärjestelmiä. Keskuspalvelimessa pyöri Linux-pohjainen hypervisor, joka oli yhteydessä kahteen loogiseen yksikköön (LUN). Tuntemattomaksi jääneestä syystä loogiset yksiköt oli jossain vaiheessa alustettu uudelleen ja prosessin aikana EXT-tiedostojärjestelmien metadata kirjoitettiin ennalta määrätyille alueille. Metadata sisälsi tietoa vain muutaman tuhannen tavun verran, mutta virtuaalisille levytiedostoille ja koko rakenteelle aiheutui mittavat vahingot. Tietojen palauttamiseen kului useita vuorokausia ja paljon työtä, mutta lopulta virtuaalilevyt löytyivät ja tiedot pystyttiin palauttamaan.
  • Kaksi fuusioitumassa ollutta yritystä kohtasivat ongelmia yhdistäessään IT-infrastruktuurejaan. Ongelmien syyksi epäiltiin sabotaasia, mutta pitäviä todisteita siitä ei ole. Suuremman yrityksen järjestelmässä oli 400 virtuaalipalvelinta, jotka oli jaettu yli 20 loogiseen yksikköön (LUN). Todennäköisesti joku pääkäyttäjäoikeudet omistava henkilö oli tuhonnut siirron aikana 440 virtuaalista levytiedostoa ja yli 1000 snapshot-tiedostoa. IT-osasto joutui käyttämään kolme työpäivää keskuspalvelimien palauttamiseen. Muutama seuraava viikko käytettiin tallennusjärjestelmän muiden osien pelastamiseksi. Varmuuskopioiden ansiosta suurin osa virtuaalikoneista saatiin takaisin toimintakuntoon, mutta muutamat niistä piti rakentaa uudelleen ”manuaalisesti” etsimällä satunnaisia kopioita muista tallennusmedioista, sähköposteista jne.
  • Eräässä yrityksessä yllätyttiin pahemman kerran ylläpitorutiinien yhteydessä. Virtuaalikoneet sisältävä SAN-tallennusjärjestelmä oli vahingossa kytketty väärään palvelimeen. Kun tallennusjärjestelmä oli ”tuntematon”, sen sisältö alustettiin automaattisesti. Pian huomattiin, että varajärjestelmän sisältö oli täysin identtinen alkuperäisen kanssa, sillä molemmat järjestelmät oli alustettu samaan aikaan. Tiedot saatiin palautettua pitkän ja kalliin prosessin tuloksena. Vaikka koneissa olisi erinomaisia ominaisuuksia, ne eivät estä inhimillisiä virheitä. Tässä tapauksessa peilikopion replikointi olisi pitänyt kytkeä pois päältä.
  • Hollantilaisen yrityksen RAID 5 -järjestelmä lakkasi toimimasta. Järjestelmä koostui 12 kiintolevystä ja 50 virtuaalikoneesta, joilla pyörivät muun muassa yrityksen talous- ja myyntijärjestelmät. Yritys kokeili useita eri ratkaisuja järjestelmän palauttamiseen, kutsui paikalle ruotsalaisen insinöörin ja pyysi apua myös suoraan laitetoimittajalta. Laitetoimittajan edustajat eivät kuitenkaan voineet tehdä mitään paikan päällä ja veivät kaksi levyä mukanaan Englantiin. Lopulta yritys otti yhteyttä Ibasiin, joka hankki Englantiin viedyt levyt takaisin, sillä ne olivat ratkaisevan tärkeitä tietojen palauttamisessa. Analyysi paljasti, että levyjen lukemisessa oli fyysisiä ongelmia. Kahdestatoista levystä yksitoista oli kytketty RAID-järjestelmään ja yksi oli ns. varalevy. Kolme loogista yksikköä sisältävä RAID oli pyörinyt offline-levyllä jo usean kuukauden ajan. Ongelman ratkaisemiseksi offline-levyn logiikka prosessoitiin käyttökelpoiseksi ja RAID-järjestelmä rakennettiin uudelleen, jotta päästiin käsiksi virtuaalikoneiden loogisiin yksiköihin. Näin saatiin palautettua 38 virtuaalikoneen tiedot 99,8-prosenttisesti.

Miten varautua ongelmiin?

Parhaimman suojan yrityksen tiedoille saa edistyneellä teknologialla, jota käyttävät ihmiset, jotka ratkaisevat ongelmat jo ennen niiden ilmaantumista. Jos yhtälöstä poistettaisiin inhimilliset tekijät kokonaan, moni vahinko jäisi tapahtumatta. Kun vahinkoja kuitenkin tapahtuu, on niihin viisasta varautua mm. seuraavin keinoin:

  • Tee sellainen palvelusopimus, jossa määritetään selkeästi, miten pian järjestelmä saadaan takaisin toimintakuntoon ja miten nopeasti tiedot saadaan käyttöön.
  • Laadi selviytymissuunnitelma, jossa jokaisen ongelmatilanteen varalle on oma yksityiskohtainen toimintamallinsa.
  • Peilaa järjestelmä fyysisesti eri paikassa olevaan järjestelmään.
  • Määrittele etukäteen, mitkä tietojärjestelmän osat pärjäisivät tilapäisesti vähemmällä suorituskyvyllä.
  • Nimeä vastuuhenkilöt eri järjestelmille ja heidän vastuualueensa onnettomuuksien varalle.
  • Valitse varmuuskopiointiratkaisu, joka vastaa niin fyysisen kuin virtuaalisen ympäristön tarpeisiin.
  • Varmista, että palvelutoimittajan tietoturva on kunnossa ja yhteydet suojattu ennen kuin lähetät arkaluontoista dataa. Valitse myös lähetettävän tiedon formaatti huolella ja tarkista vastaanotettavat tiedostot.
  • Tarkista, että yrityksesi ja palveluntarjoajan järjestelmät ja protokollat ovat keskenään yhteensopivia.
  • Pidä huolta, että tietojärjestelmäsi skaalautuu tarpeen mukaan.

Tallennetun tiedon määrä kasvaa vauhdilla ja se asettaa uudenlaisia vaatimuksia teknologialle, prosesseille ja järjestelmille. Yksityiskohtaiset suunnitelmat ja säännöllinen testaus ovat tärkeässä roolissa. Niiden avulla voit välttää kriisit ilman suurempia ongelmia.