darsh: (novoselje)
[personal profile] darsh
(Предыдущая серия).
Сегодня ночью в 02:36 полетел уже четвёртый подряд RMA диск. Был поставлен во вторник вечером в 22:07. Время от установки до сбоя - 100 часов 29 минут. При том, что я специально поменял и шлейф, идущий к нему от HBA, и место в корзине дисков (до этого там стоял диск, не сбоивший ещё ни разу), и даже блок питания (на Fractal Design Edison M 550W). И всё равно полетел, причём за рекордное время.
Они там совсем охренели, что ли? :-/

Я уже потратил больше 20 фунтов только на пересылку битых дисков обратно WDC. Ещё две пересылки - и буду покупать новый диск. А то я, как тот лось: "что-то я пью-пью, а мне всё хуже и хуже..." :-(

UPD 1: В переписке с саппортом всплыло прекрасное: "All of WD Drives, which are sent out as Replacements in the EMEA region, are recertified."
В свою очередь, просмотрел серийные номера в цепочке RMA и выяснил интересную особенность: серийные номера всех умерших дисков начинаются с WCC4N. Серийные номера всех дисков, которые у меня до сих пор работают, начинаются с WMC4N.
RMA chain: SN WMC4N1994447 - RMA 86391451 - WCC4N1NDU6EX - RMA 86512020 - WCC4N0LNT1R7 - RMA 86587382 - WCC4N3ZN9J69 - RMA 86607001 - WCC4N1075303.
UPD 2: Последний RMA диск приехал из Польши, из Bydgoszcz - через Германию, Kelsterbach, где у WD, похоже, пересылочный пункт. До этого приходили прямиком из Венгрии.


May 31 22:07:47 emc2 kernel: [ 11.343778] sd 0:0:0:0: [sdd] 5860533168 512-byte logical blocks: (3.00 TB/2.72 TiB)
May 31 22:07:47 emc2 kernel: [ 11.343788] sd 0:0:0:0: [sdd] 4096-byte physical blocks
May 31 22:07:47 emc2 kernel: [ 11.348909] sd 0:0:0:0: [sdd] Write Protect is off
May 31 22:07:47 emc2 kernel: [ 11.348919] sd 0:0:0:0: [sdd] Mode Sense: 7f 00 10 08
May 31 22:07:47 emc2 kernel: [ 11.349911] sd 0:0:0:0: [sdd] Write cache: enabled, read cache: enabled, supports DPO and FUA
May 31 22:07:47 emc2 kernel: [ 11.363110] sdd: unknown partition table
May 31 22:07:47 emc2 kernel: [ 11.372251] sd 0:0:0:0: [sdd] Attached SCSI disk
May 31 22:07:53 emc2 smartd[769]: Device: /dev/sdd, type changed from 'scsi' to 'sat'
May 31 22:07:53 emc2 smartd[769]: Device: /dev/sdd [SAT], opened
May 31 22:07:53 emc2 smartd[769]: Device: /dev/sdd [SAT], WDC WD30EFRX-68EUZN0, S/N:WD-WCC4N3ZN9J69, WWN:5-0014ee-2b7299376, FW:82.00A82, 3.00 TB
May 31 22:07:53 emc2 smartd[769]: Device: /dev/sdd [SAT], found in smartd database: Western Digital Red (AF)
May 31 22:07:53 emc2 smartd[769]: Device: /dev/sdd [SAT], is SMART capable. Adding to "monitor" list.
May 31 22:07:55 emc2 smartd[769]: Device: /dev/sdd [SAT], state written to /var/lib/smartmontools/smartd.WDC_WD30EFRX_68EUZN0-WD_WCC4N3ZN9J69.ata.state
...
Jun 5 02:36:26 emc2 kernel: [361934.056994] sd 0:0:0:0: [sdd] Unhandled sense code
Jun 5 02:36:26 emc2 kernel: [361934.057094] end_request: critical medium error, dev sdd, sector 1333630208
Jun 5 02:36:30 emc2 kernel: [361937.981536] sd 0:0:0:0: [sdd] Unhandled sense code
Jun 5 02:36:30 emc2 kernel: [361937.981586] end_request: critical medium error, dev sdd, sector 1333630464
Jun 5 02:36:34 emc2 kernel: [361941.850518] sd 0:0:0:0: [sdd] Unhandled sense code
Jun 5 02:36:34 emc2 kernel: [361941.850609] end_request: critical medium error, dev sdd, sector 1333630208
Jun 5 02:36:38 emc2 kernel: [361945.630530] sd 0:0:0:0: [sdd] Unhandled sense code
Jun 5 02:36:38 emc2 kernel: [361945.630620] end_request: critical medium error, dev sdd, sector 1333630464
Jun 5 02:36:42 emc2 kernel: [361949.532720] sd 0:0:0:0: [sdd] Unhandled sense code
Jun 5 02:36:42 emc2 kernel: [361949.532780] end_request: critical medium error, dev sdd, sector 1333630336
Jun 5 02:36:45 emc2 kernel: [361953.412821] sd 0:0:0:0: [sdd] Unhandled sense code
Jun 5 02:36:45 emc2 kernel: [361953.412909] end_request: critical medium error, dev sdd, sector 1333630592
Jun 5 02:36:49 emc2 kernel: [361957.270682] sd 0:0:0:0: [sdd] Unhandled error code
Jun 5 02:36:49 emc2 kernel: [361957.270763] end_request: I/O error, dev sdd, sector 1333632000
Jun 5 02:36:49 emc2 kernel: [361957.270924] sd 0:0:0:0: [sdd] Unhandled error code
Jun 5 02:36:49 emc2 kernel: [361957.270987] end_request: I/O error, dev sdd, sector 1333631744
Jun 5 02:36:49 emc2 kernel: [361957.271108] sd 0:0:0:0: [sdd] Unhandled error code
Jun 5 02:36:49 emc2 kernel: [361957.271171] end_request: I/O error, dev sdd, sector 1333631488
Jun 5 02:36:49 emc2 kernel: [361957.271286] sd 0:0:0:0: [sdd] Unhandled error code
Jun 5 02:36:49 emc2 kernel: [361957.271346] end_request: I/O error, dev sdd, sector 1333631232
Jun 5 02:36:49 emc2 kernel: [361957.271462] sd 0:0:0:0: [sdd] Unhandled error code
Jun 5 02:36:49 emc2 kernel: [361957.271522] end_request: I/O error, dev sdd, sector 1333630976
Jun 5 02:36:49 emc2 kernel: [361957.271585] md/raid:md4: Too many read errors, failing device sdd1.
Jun 5 02:36:49 emc2 kernel: [361957.271596] md/raid:md4: Disk failure on sdd1, disabling device.
Jun 5 02:36:49 emc2 kernel: [361957.271689] md/raid:md4: read error not correctable (sector 1333628936 on sdd1).
Jun 5 02:36:49 emc2 kernel: [361957.271699] md/raid:md4: read error not correctable (sector 1333628944 on sdd1).
Jun 5 02:36:49 emc2 kernel: [361957.271707] md/raid:md4: read error not correctable (sector 1333628952 on sdd1).
Jun 5 02:36:49 emc2 kernel: [361957.271716] md/raid:md4: read error not correctable (sector 1333628960 on sdd1).
Jun 5 02:36:49 emc2 kernel: [361957.271724] md/raid:md4: read error not correctable (sector 1333628968 on sdd1).
Jun 5 02:36:49 emc2 kernel: [361957.271732] md/raid:md4: read error not correctable (sector 1333628976 on sdd1).
Jun 5 02:36:49 emc2 kernel: [361957.271741] md/raid:md4: read error not correctable (sector 1333628984 on sdd1).
Jun 5 02:36:49 emc2 kernel: [361957.271749] md/raid:md4: read error not correctable (sector 1333628992 on sdd1).
Jun 5 02:36:49 emc2 kernel: [361957.271758] md/raid:md4: read error not correctable (sector 1333629000 on sdd1).
Jun 5 02:36:49 emc2 kernel: [361957.271766] md/raid:md4: read error not correctable (sector 1333629008 on sdd1).

Date: 06/06/2016 10:15 (UTC)
From: [identity profile] darsh.livejournal.com
Но раз уж ты снова об этом заговорил - скажи мне, в чём сила, брат в чём преимущества RAID10 перед RAID5, что ты меня уже третий год так настойчиво уговариваешь на RAID10 перейти? :-)

Date: 07/06/2016 08:11 (UTC)
From: [identity profile] metelica.livejournal.com
Нагрузка на диски.
В RAID5 из N дисков для записи блока надо сначала сделать N-2 операции чтения, а потом 2 операции записи. В RAID10 только 2 операции записи.
Ну и самое страшное испытание для RAID5 - восстановление массива.

Date: 07/06/2016 09:17 (UTC)
From: [identity profile] darsh.livejournal.com
То есть увеличенная нагрузка - в N-2 операциях чтения? Но ведь чтение с точки зрения физики не меняет ничего на диске, а, стало быть, и ресурс диска не снижает. Тем более, что в маленьких рейдах типа моего, где N обычно равно трём, реже четырём, а при пяти я начинаю задумываться о переходе обратно на N=3, но с дисками бОльшего размера - так вот, при N=3 операция чтения всего одна. Это не такая уж высокая плата за ту гибкость конфигурации, которую даёт RAID5 по сравнению с RAID10.

Посуди сам. Вот сейчас у меня три 3TB диска, формирующих массив на 6TB. Чтобы мне получить те же 6TB на RAID10, мне понадобятся не три, а четыре 3TB диска - то есть дополнительные £90. Идём далее. Эти 6TB сейчас забиты на 80%, то есть вскоре мне понадобится этот массив расширять. При RAID5 я просто покупаю ещё один 3TB диск и добавляю его в массив - и массив становится 9TB - ещё на пару лет хватит. При RAID10 мне понадобятся уже два 3TB диска.
Что мы получаем в итоге? Что RAID10 банально дороже. Чтобы получить 6TB, для RAID5 мне нужно 3 диска, для RAID10 - четыре. Чтобы получить 9TB, для RAID5 мне нужно 4 диска, для RAID10 - 6. И так далее - для каждого нового расширения RAID10 требует в два раза больше дисков. Если я, конечно, правильно понимаю суть RAID10 - это RAID0 массив поверх пар дисков в RAID1.

Что до восстановления массива - в процессе синхронизации данные пишутся только на новый диск (что, кстати, хорошая его проверка - если он сбойный, я это сразу увижу). Да, занимает время и грузит процессор. Но даже в моей конфигурации (3 x 3TB, слабенький AMD E-450 проц) это занимает часов десять. А поскольку я обычно ставлю новый диск вечером - к утру массив уже готов. Меня, если честно, не напрягает, тем более, что никаких задач, требующих много процессора, на этом сервере не крутится.

May 31 22:31:33 emc2 kernel: [ 1417.717630] md: recovery of RAID array md4
Jun 1 08:08:04 emc2 kernel: [36030.511357] md: md4: recovery done.
Edited Date: 07/06/2016 09:26 (UTC)

Profile

darsh: (Default)
Darsh

February 2017

M T W T F S S
  12345
6789101112
13 141516 171819
20212223242526
2728     

Most Popular Tags

Style Credit

Expand Cut Tags

No cut tags
Page generated 24/05/2025 20:39
Powered by Dreamwidth Studios