Rescue Mód

Popis


U OVH máme dva typy rescue módu. "Vkvm mód" a "pro rescue mód". Ten druhý je navržen speciálně pro Linuxové servery. Oba módy umožňují připojení přes ssh a také provedení HW diagnostiky (mimo serverů s OS FreeBSD, u kterých HW diagnostika není k dispozici a správce serveru musí provést své vlastní testy HW).
Výhodou je, že nemusíte kontaktovat podporu, v případě zásahu. S rescue módem máte možnost provést HW diagnostiku tehdy, kdy se vám to nejlépe hodí a kdy nebudete omezovat uživatele serveru.

Software & Administrace

  • spuštění fsck / e2fsck
  • konzultovat a analyzovat logy
  • opravit problémy se software
  • předělat / zkontrolovat RAID
  • zálohovat data
Hardware

  • memtest: kontrola paměti (RAM)
  • cpuburn: kontrola procesoru (CPU)
  • fsck kontrola file systému
  • state kontrola disku
  • explorer zkontolovat soubory


Jestliže některý z testů skončí chybou, přihlašte se do Manažeru, klikněte na "Kontaktujte podporu" a zde pak klikněte na "Nahlásit problém".
Tam čistě jen zkopírujte výsledky testu. Příklad: server spadl v době provádění testu CPU. My poté okamžitě provedeme zákrok na serveru a vyměníme poškozený HW.

Pozor: Nemůžete používat webové rozhraní a ssh ve stejnou dobu. Nesmíte spustit kontrolu disku přes webové rozhraní a mount-ovat diskový oddíl přes ssh ve stejnou dobu. To by mohlo vést ke ztrátě vašich dat!!

Aktivace Rescue Módu


Přihlašte se do Manažeru v3, sekce "dedikované servery", poté "služby", "Netboot" a zvolte 'rescue-pro'.

Jestliže je možný softwareový reboot serveru (v ssh: /sbin/reboot), udělejte ho. Jestliže není možný, proveďte hard reboot z Manažeru.

Poté (zhruba do 30-60 minut) obdržíte e-mail, kde naleznete odkaz a přihlašovací údaje pro provedení HW diagnostiky a přístup k ssh.

Může se také stát, že naši technici již provádějí na serveru nějaký zákrok. Jestliže nenaleznou žádný HW problém na serveru, spustí server do prostředí rescue módu, aby jste mohli zálohovat data a provést nezbytná opatření před reinstalací serveru, nebo jeho opravou.

Kontrola hardware


Jakmile je server v rescue módu, obdržíte v e-mailu odkazy a přihlašovací údaje, s jejichž pomocí můžete provést diagnostiku HW. Zde je přehled, jak toto prostředí vypadá:


Seznam kontoly


  • Pevné disky: umožňuje zobrazit informace o nainstalovaných discích.
  • Procesor: kontrola CPU. Je zde možnost, že nedostanete chybovou hlášku, ale server zamrzne, nebo se bude restartovat. Oboje je znamením, že je zde nějaký problém. Co nejrychleji kontaktujte podporu.
  • Stav diskových oddílů: zkontroluje disk
  • Systém souborů na diskovém oddílu: Zkontroluje souborový systém. Nekonzistence v souborovém systému je často zaměňována s poškozeným diskem. Mějte na paměti, že často stačí jen přeinstalovat operační systém, aby vše opět fungovalo tak jak má. Obzvláště, jestliže server detekuje soubory v lost+found (ztráty+nálezy) adresáři.
  • Prozkoumání diskových oddílů: umožňuje kontrolu souborů. Prostřednicvím tohoto nástroje nelze v souborech provádět změny, ale můžeme je například uložit. Velmi důležité: můžeme číst logy na serveru bez použití ssh.
  • Paměť: kontrola RAM Mějte prosím na paměti, že test paměti má velké nároky na CPU. Jestliže test zamrzne, nebo způsobí "spadnutí" serveru, je to nejspíše tím, že je poškozené CPU, nebo není dobře chlazeno. Jestliže je problém v paměti RAM, dostanete na konci testu podrobné hlášení obsahující typ chyby.

Ne všechny problémy lze detekovat prostřednictvím tohoto rozhraní.
Pro příklad nesprávny reboot, atd. Neváhejte testy provést a konzultovat výsledky s našimi techniky, kteří pomůžou s analýzou problému na serveru.

Pozor:
Může se stát, že dostanete následující chybu v 64% testu RAM:
your server hasn't reacted for a least 20 seconds. it is probably down you can try to refresh the pageif the server crashed while doing a cpu test. it is possible that the cpu is faulty (váš server neodpovídá po dobu nejméně 20 sekund. Pravděpodobně spadl. Můžete se pokusit obnovit stránku, jestliže došlo ke spadnutí v době provádění testu CPU. Je zde možnost, že je poškozené CPU. ).

Můžete kliknout na OK. Je časté, že se toto stane, protože test v době okolo 64% je již velmi dlouhý.

Rescue v SSH

Pro připojení



Připojíte se k vašemu serveru stejně, jako obvykle. Jediná věc, která se změní je heslo. Musíte použít dočasné heslo, které vám bylo zasláno an e-mail po rebootování serveru do rescue módu.
angie@amazone:~$ ssh root@213.186.xx.yy
The authenticity of host '213.186.xx.yy (213.186.xx.yy)' can't be established.
RSA key fingerprint is 02:11:f2:db:ad:42:86:de:f3:10:9a:fa:41:2d:09:77.
Are you sure you want to continue connecting (yes/no)? yes
Warning: Permanently added '213.186.xx.yy' (RSA) to the list of known hosts.
Password:
rescue:~#

Nyní jste připojeni, ale soubory nejsou přístupné. Pro jejich zobrazení a následnou práci s nimi, musíte mount-ovat souborový systém.

Disk mount


Obvykle je /dev/xda1 rootovský (/) diskový oddíl a /dev/xda2 je adresář /home.
Zařízení jsou:
  • /dev/sd pro SCSI, SATA, Raid Hard
  • /dev/hd pro IDE disky
  • /dev/md pro RAID Soft
  • /dev/rd/c0d0p pro raid Mylex

Můžete také použít devfs.
Jestliže nevíte jaký disk máte, Na kterém je diskové pole, použijte příkazy: fdisk nebo sfdisk. Zde je příklad s příkazem a s odpovědí, kterou na příkaz dostanete.

rescue:~# fdisk -l

Disk /dev/hda 40.0 GB, 40020664320 bytes
255 heads, 63 sectors/track, 4865 cylinders
Units = cylinders of 16065 * 512 = 8225280 bytes

Device Boot Start End Blocks Id System
/dev/hda1 * 1 1305 10482381 83 Linux
/dev/hda2 1306 4800 28073587+ 83 Linux
/dev/hda3 4801 4865 522112+ 82 Linux swap / Solaris

Disk /dev/sda 8254 MB, 8254390272 bytes
16 heads, 32 sectors/track, 31488 cylinders
Units = cylinders of 512 * 512 = 262144 bytes

Device Boot Start End Blocks Id System
/dev/sda1 1 31488 8060912 c W95 FAT32 (LBA)


Tento server je vybaven dvěma zařízeníma.
Vidíme /dev/hda s *, která nám říká, že je disk bootovací. Další co můžeme vidět je USB flash disk.
Pro mount / na serveru musíte pouze:
rescue:~# mount /dev/hda1 /mnt/

/home by měl být na /dev/hda2. Mountneme ho za / příkazem mount /dev/hda2 /mnt/home.
/home není nutně na /dev/hda2 q je možné, že vaše data jsou v /var,například pro Plesk. Aby jste si byli jistí, jaká zařízení lze mount-nout, použijte příkaz cat /mnt/etc/fstab.
Tento soubor obsahuje serverové diskové oddíly, jestliže nabootujete z pevného disku.

Zde je příklad:

rescue:# cat /mnt/etc/fstab
/dev/hda1 / ext3 errors=remount-ro 0 1
/dev/hda2 /var ext3 defaults,usrquota,grpquota 1 2
/dev/hda3 swap swap defaults 0 0
/dev/devpts /dev/pts devpts gid=5,mode=620 0 0
/dev/shm /dev/shm tmpfs defaults 0 0
/dev/proc /proc proc defaults 0 0
/dev/sys /sys sysfs defaults 0 0


/dev/hda2 je zde proto, kdyby zde byl /var a nebyl /home.
Poté musíte mount-nout: mount /dev/hda2 /mnt/var .

RPS



Pro RPS, které jsou v NFS, musíte do rescue napsat: mount -a.
NFS se mount-nou sami


Chroot



Nyní můžeme upravovat soubory za použití cesty /mnt/var/.... pro příklad /mnt/etc/lilo.conf. Ale aby toto šlo udělat, musíte být v root v systému, který je instalován na disku a není možné toto udělat v rescue-módu.
Pro tyto operace musíte použít tento příkaz chroot:

rescue:~# chroot /mnt/
rescue:/#


Jak již víme, příkaz chrooting nás dostane do / na server.
Nyní můžu použít příkaz na mém systému.

Příklady


Některé příklady použití v rescue módu již byly zmíněny.
Chystáme se sem dát malý seznam pravidel, na které se nás často ptáte.

Opuštění rescue módu


Po úpravách musíte jít zpět do Manažeru a vrátit zpět vaši obvyklou metodu bootování.
Jakmile je vybráno a potvrzeno správné jádro, pokusíte se o software reboot serveru.

rescue:~# /sbin/reboot
Broadcast message from root (pts/0) (Tue Apr 12 15:56:17 2005):
The system is going down for reboot NOW!


Závěr


Jestliže následujete nějaké základní administrační příkazy, které jsou vysvětleny v manuálu Užitečné informace o Dedikovaných serverech, můžete kdykoli zasednout ke svému serveru a vylepšit jeho zpracování a zkrátit čas na řešení dotazů.