Man вики
Advertisement

Задача[]

  • Необходимо создать надежную отказоустойчивую дисковую систему. При выходе из строя любого жесткого диска, система должна продолжить работу
  • Перенос на RAID должен происходить без прерывания работы системы и без потери данных
  • Необходимо использовать средства, не требующие привязки к оборудованию, т.е. без использования как встроенных так и внешних RAID контроллеров
  • Необходимо обеспечить систему надежными средствами уведомления о сбоях дисков для оперативной замены
  • Замена жестких дисков должна производиться без прерывания работы в "горячем" режиме.

Перенос PROXMOX на RAID1 (Зеркало)[]

Принцип работы[]

  • Добавляем в систему жесткий диск идентичный по размеру (до сектора) в идеале той-же модели, что и исходный
  • Создаем на нем 2 раздела (под загрузку и под данные)
  • Создаем 2 зеркальных рейд массива в degrade (разрушенном) состоянии (это когда массив который должен состоять из 2-х дисков, а состоит всего из одного.
  • Переносим всё (загрузочный раздел и раздел с данными) с первого диска на рейд массивы второго диска
  • Уничтожаем данные и структуру разделов на первом диске и подключаем его в качестве не хватающего диска в уже созданный рейд массив
  • Делаем оба диска загрузочными

Подготовительные работы[]

  • Перед началом работ, не помешает проверить состояние SMART жестких дисков и настроить его контроль. Сервер_NAS_(сетевая_система_хранения_данных)#Мониторинг и уведомления о неисправностях

Затем надо полностью очистить от всех имеющихся данных и разделов второй (добавленный) диск.

Создание новой структуры разделов на втором диске[]

Посмотрим список обнаруженных в системе физических дисков:

dmesg | egrep 'logical blocks|Direct-Access'

Убедимся, что система загружается с первого жесткого диска /dev/sda

df -h | grep '/boot'

Мы должны увидить нечто подобное:

/dev/sda1 504M 34M 445M 8% /boot

Если раздел boot находится не на /dev/sda1, необходимо отключить компьютер и поменять местами sata кабеля подключенные к жестким дискам.

Скопируем структуру разделов с первого диска на второй

sfdisk -d /dev/sda | sfdisk /dev/sdb --force

Сменим тип разделов на fd (Linux raid autodetect)

sfdisk -c /dev/sdb 1 fd --force
sfdisk -c /dev/sdb 2 fd --force

Проверим список разделов

sfdisk -l /dev/sdb

Загрузка и установка компонентов[]

  • mdadm - менеджер программного RAID для Linix
  • initramfs -временная файловая система, использующаяся ядром при начальной загрузке
apt-get update
apt-get install -y mdadm initramfs-tools

Все параметры по умолчанию

Подключение модуля RAID[]

modprobe raid1
echo alias md-personality-3 raid1 >> /etc/modprobe.conf

Далее необходимо убедится, что на дисках не осталось суперблоков. Эти блоки являются метками, которые проставляются в конец диска если он являлся частью рейд массива ранее. Часто они не удаляются в процессе форматирования жесткого диска при установке PROXMOX и их нужно затереть вручную!

  • Проверяем, нет ли суперблоков
mdadm --misc --examine /dev/sda
mdadm --misc --examine /dev/sdb
mdadm --misc --examine /dev/sdb1
mdadm --misc --examine /dev/sdb2

Если все в порядке и суперблоков нет, то увидим нечто подобное:

mdadm: No md superblock detected on /dev/sdb

Если есть, то перед продолжением настройки их необходимо удалить! Удаление суперблоков

Настроем почтовую подсистему и параметры локали Отправка почты

Настройка параметров mdadm[]

Создадим файл настроек, предварительно сохранив оригинальный

cp /etc/mdadm/mdadm.conf /etc/mdadm/mdadm.conf.orig
echo "" > /etc/mdadm/mdadm.conf
nano /etc/mdadm/mdadm.conf
# Автоматическое назначение прав на новые массивы
CREATE owner=root group=disk mode=0660 auto=yes

# Почтовый адрес для уведомлений о событиях  происходящих с массивом
MAILADDR it.khabarovsk@dns-shop.ru

Предварительная настройка RAID в режиме деградации[]

mdadm --create /dev/md0 --level=1 --raid-devices=2 missing /dev/sdb1
mdadm --create /dev/md1 --level=1 --raid-devices=2 missing /dev/sdb2

Если все впорядке и массивы создались, сохраним параметры массива в конфигурационном файле:

mdadm --detail --scan >> /etc/mdadm/mdadm.conf

Проверим, что информация о наших массивах записалась в файл параметров

cat /etc/mdadm/mdadm.conf

настройка загрузочного меню grub[]

Добавим загрузочный образ initramfs

mkinitramfs -o /boot/initrd.img-`uname -r`-raid1 -r /dev/mapper/pve-root

Заменим файл загрузочного меню и создадим свой, предварительно сохранив оригинальный

cp /boot/grub/menu.lst /boot/grub/menu.lst.orig
echo "default         0" > /boot/grub/menu.lst
echo "timeout         5" >> /boot/grub/menu.lst
echo "title  Proxmox VE on soft-RAID" >> /boot/grub/menu.lst
echo "root   (hd0,0)" >> /boot/grub/menu.lst
echo "kernel /vmlinuz-`uname -r` root=/dev/mapper/pve-root ro" >> /boot/grub/menu.lst
echo "initrd /initrd.img-`uname -r`-raid1" >> /boot/grub/menu.lst

Проверим:

cat /boot/grub/menu.lst

Перенос данных из LVM на второй диск[]

Создаем LVM-раздел на втором диске и добавляем его в группу pve

pvcreate /dev/md1
vgextend pve /dev/md1

Переместим данные с LVM-раздела первого диска, на RAID-LVM-раздел второго диска. Процедура может продолжаться очень долго. Время зависит от объема и скорости жестких дисков.

pvmove /dev/sda2 /dev/md1

Убираем из LVM первый диск

vgreduce pve /dev/sda2

Перенос загрузочных файлов на RAID[]

Подготовим загрузочный RAID-раздел второго диска и скопируем на него все файлы из папки /boot первого диска

mkfs.ext3 /dev/md0
mkdir /mnt/md0
mount /dev/md0 /mnt/md0
cp -ax /boot/* /mnt/md0
umount /mnt/md0
rmdir /mnt/md0

Настроим параметры подключения системных дисков с учетом загрузки с raid. Пересоздадим конфигурационный файл fstab предварительно сохранив оригинальный.

cp /etc/fstab /etc/fstab.orig
echo "" > /etc/fstab
nano /etc/fstab
/dev/pve/root / ext3 errors=remount-ro 0 1
/dev/pve/data /var/lib/vz ext3 defaults 0 1
/dev/md0 /boot ext3 defaults 0 1
/dev/pve/swap none swap sw 0 0
proc /proc proc defaults 0 0

Перемонтируем загрузочный раздел

umount /boot
mount /boot

Подключаем первый (исходный) диск в RAID[]

Копируем структуру разделов со второго диска на первый

sfdisk -d /dev/sdb | sfdisk /dev/sda --force

Добавим разделы первого диска в RAID

mdadm --add /dev/md0 /dev/sda1
mdadm --add /dev/md1 /dev/sda2

Осталось обновить загрузчик на обоих дисках. Запускаем

grub

И последовательно вводим:

root (hd0,0)
setup (hd0)
root (hd1,0)
setup (hd1)
quit

Проверить в каком состоянии находится массив можно командой:

cat /proc/mdstat

Замена жесткого диска[]

Смысл резервирования дисковой системы заключается не в факте самого наличия резервирования, а в возможности в случае возникновения неисправности любого из жестких дисков оперативно и без риска для данных его заменить. В этом должны помочь своевременные уведомления на почту и четкая инструкция по замене неисправного диска с восстановлением избыточности.

Определение неисправного диска[]

  • Выясняем какой из жестких дисков "вылетел" из массива
cat /proc/mdstat

видим примерно следующее

md1 : active raid1 sda2[2](F) sdb2[1]
      243665792 blocks [2/1] [_U]
    
md0 : active raid1 sda1[2](F) sdb1[1]
      530048 blocks [2/1] [_U]


[_U] - Означает что в массиве отсутствует диск (рабочий массив выглядит так [UU]) (F) - означает, что диск дал сбой. В примере вылетел из массива и дал сбой диск sda. Всё дальнейшее описание будет описывать ситуацию с заменой диска sda, при этом рабочим остался диск sdb.

  • Необходимо выяснить, какой из дисков нужно физически отключить. В этом поможет информация о серийных номерах. Например смотрим информацию о модели и серийном номере оставшегося рабочего диска sdb:
udevadm info --query=env --name=sdb | grep -E '(ID_SERIAL_SHORT|ID_MODEL)'
ID_SERIAL_SHORT=9QZCNTNH

Смотрим серийники на наклейках жестких дисков. Соответственно диск с серийным номером 9QZCNTNH оставляем в системе, другой отключаем.

Замена неисправного диска[]

Выполнять будем горячую замену диска без выключения и перезагрузок сервера.

1. Очистим информацию о диске sda в массивах.

mdadm /dev/md0 --fail /dev/sda1 --remove detached /dev/sda1
mdadm /dev/md1 --fail /dev/sda1 --remove detached /dev/sda1

2. Удаляем диск физически отключив sata шлейф.

3. Подключаем новый жесткий диск (SATA) равного до байта или большего размера на "на горячую".

4. Выполняем сканирование порта, в который подключили жесткий диск.

echo "- - -" >/sys/class/scsi_host/host0/scan

где host0 номер порта.

  • Если нет точной уверенности, в какой именно порт воткнут новый диск, необходимо просканировать все имеющиеся порты. Список портов можно узнать:
ls /sys/class/scsi_host/

5. Смотрим системный журнал, какое имя получил новый жесткий диск в системе:

dmesg | grep "logical blocks"

Ищем последнюю строку, например:

sd 0:0:0:0: [sda] 234439535 512-byte logical blocks: (120 GB/111 GiB)

Значит имя нового диска - sda

  • Если новый диск физически при подключении получил другое имя например sdc, надо отключить его программно выполнив:
echo "1" > /sys/block/sdc/device/delete

После чего убедится что имя старого диска /dev/sda отсутствует в описании массива и если это не так выполним очистку как описано выше выше в пунке 1.

cat /proc/mdstat

Затем выполнить сканирование sata портов.

Активация нового диска[]

Чтобы не ошибиться в дальнейших действиях и не испортить данные создадим переменные с именами дисков.

cleandsk=sda # чистый, пустой диск
workdsk=sdb  # Диск, который содержит систему

Произведем копирование структуры разделов с рабочего на чистый диск и подключим его к массиву

dd if=/dev/$workdsk of=/dev/$cleandsk bs=512 count=34
blockdev --rereadpt /dev/$cleandsk
mdadm --add /dev/md0 /dev/${cleandsk}2
mdadm --add /dev/md1 /dev/${cleandsk}3
  • Устанавливаем загрузчик на новый диск
grub

И последовательно вводим, где 0 это номер диска:

root (hd0,0)
setup (hd0)
quit

Смотрим процесс синхронизации

watch cat /proc/mdstat

Как только процесс завершиться, новый диск станет полноценным участником массива и в случае выхода из строя другого диска, система загрузится с него.

Advertisement