darsh: (novoselje)
[personal profile] darsh
(Предыдущая серия).
Сегодня ночью в 02:36 полетел уже четвёртый подряд RMA диск. Был поставлен во вторник вечером в 22:07. Время от установки до сбоя - 100 часов 29 минут. При том, что я специально поменял и шлейф, идущий к нему от HBA, и место в корзине дисков (до этого там стоял диск, не сбоивший ещё ни разу), и даже блок питания (на Fractal Design Edison M 550W). И всё равно полетел, причём за рекордное время.
Они там совсем охренели, что ли? :-/

Я уже потратил больше 20 фунтов только на пересылку битых дисков обратно WDC. Ещё две пересылки - и буду покупать новый диск. А то я, как тот лось: "что-то я пью-пью, а мне всё хуже и хуже..." :-(

UPD 1: В переписке с саппортом всплыло прекрасное: "All of WD Drives, which are sent out as Replacements in the EMEA region, are recertified."
В свою очередь, просмотрел серийные номера в цепочке RMA и выяснил интересную особенность: серийные номера всех умерших дисков начинаются с WCC4N. Серийные номера всех дисков, которые у меня до сих пор работают, начинаются с WMC4N.
RMA chain: SN WMC4N1994447 - RMA 86391451 - WCC4N1NDU6EX - RMA 86512020 - WCC4N0LNT1R7 - RMA 86587382 - WCC4N3ZN9J69 - RMA 86607001 - WCC4N1075303.
UPD 2: Последний RMA диск приехал из Польши, из Bydgoszcz - через Германию, Kelsterbach, где у WD, похоже, пересылочный пункт. До этого приходили прямиком из Венгрии.


May 31 22:07:47 emc2 kernel: [ 11.343778] sd 0:0:0:0: [sdd] 5860533168 512-byte logical blocks: (3.00 TB/2.72 TiB)
May 31 22:07:47 emc2 kernel: [ 11.343788] sd 0:0:0:0: [sdd] 4096-byte physical blocks
May 31 22:07:47 emc2 kernel: [ 11.348909] sd 0:0:0:0: [sdd] Write Protect is off
May 31 22:07:47 emc2 kernel: [ 11.348919] sd 0:0:0:0: [sdd] Mode Sense: 7f 00 10 08
May 31 22:07:47 emc2 kernel: [ 11.349911] sd 0:0:0:0: [sdd] Write cache: enabled, read cache: enabled, supports DPO and FUA
May 31 22:07:47 emc2 kernel: [ 11.363110] sdd: unknown partition table
May 31 22:07:47 emc2 kernel: [ 11.372251] sd 0:0:0:0: [sdd] Attached SCSI disk
May 31 22:07:53 emc2 smartd[769]: Device: /dev/sdd, type changed from 'scsi' to 'sat'
May 31 22:07:53 emc2 smartd[769]: Device: /dev/sdd [SAT], opened
May 31 22:07:53 emc2 smartd[769]: Device: /dev/sdd [SAT], WDC WD30EFRX-68EUZN0, S/N:WD-WCC4N3ZN9J69, WWN:5-0014ee-2b7299376, FW:82.00A82, 3.00 TB
May 31 22:07:53 emc2 smartd[769]: Device: /dev/sdd [SAT], found in smartd database: Western Digital Red (AF)
May 31 22:07:53 emc2 smartd[769]: Device: /dev/sdd [SAT], is SMART capable. Adding to "monitor" list.
May 31 22:07:55 emc2 smartd[769]: Device: /dev/sdd [SAT], state written to /var/lib/smartmontools/smartd.WDC_WD30EFRX_68EUZN0-WD_WCC4N3ZN9J69.ata.state
...
Jun 5 02:36:26 emc2 kernel: [361934.056994] sd 0:0:0:0: [sdd] Unhandled sense code
Jun 5 02:36:26 emc2 kernel: [361934.057094] end_request: critical medium error, dev sdd, sector 1333630208
Jun 5 02:36:30 emc2 kernel: [361937.981536] sd 0:0:0:0: [sdd] Unhandled sense code
Jun 5 02:36:30 emc2 kernel: [361937.981586] end_request: critical medium error, dev sdd, sector 1333630464
Jun 5 02:36:34 emc2 kernel: [361941.850518] sd 0:0:0:0: [sdd] Unhandled sense code
Jun 5 02:36:34 emc2 kernel: [361941.850609] end_request: critical medium error, dev sdd, sector 1333630208
Jun 5 02:36:38 emc2 kernel: [361945.630530] sd 0:0:0:0: [sdd] Unhandled sense code
Jun 5 02:36:38 emc2 kernel: [361945.630620] end_request: critical medium error, dev sdd, sector 1333630464
Jun 5 02:36:42 emc2 kernel: [361949.532720] sd 0:0:0:0: [sdd] Unhandled sense code
Jun 5 02:36:42 emc2 kernel: [361949.532780] end_request: critical medium error, dev sdd, sector 1333630336
Jun 5 02:36:45 emc2 kernel: [361953.412821] sd 0:0:0:0: [sdd] Unhandled sense code
Jun 5 02:36:45 emc2 kernel: [361953.412909] end_request: critical medium error, dev sdd, sector 1333630592
Jun 5 02:36:49 emc2 kernel: [361957.270682] sd 0:0:0:0: [sdd] Unhandled error code
Jun 5 02:36:49 emc2 kernel: [361957.270763] end_request: I/O error, dev sdd, sector 1333632000
Jun 5 02:36:49 emc2 kernel: [361957.270924] sd 0:0:0:0: [sdd] Unhandled error code
Jun 5 02:36:49 emc2 kernel: [361957.270987] end_request: I/O error, dev sdd, sector 1333631744
Jun 5 02:36:49 emc2 kernel: [361957.271108] sd 0:0:0:0: [sdd] Unhandled error code
Jun 5 02:36:49 emc2 kernel: [361957.271171] end_request: I/O error, dev sdd, sector 1333631488
Jun 5 02:36:49 emc2 kernel: [361957.271286] sd 0:0:0:0: [sdd] Unhandled error code
Jun 5 02:36:49 emc2 kernel: [361957.271346] end_request: I/O error, dev sdd, sector 1333631232
Jun 5 02:36:49 emc2 kernel: [361957.271462] sd 0:0:0:0: [sdd] Unhandled error code
Jun 5 02:36:49 emc2 kernel: [361957.271522] end_request: I/O error, dev sdd, sector 1333630976
Jun 5 02:36:49 emc2 kernel: [361957.271585] md/raid:md4: Too many read errors, failing device sdd1.
Jun 5 02:36:49 emc2 kernel: [361957.271596] md/raid:md4: Disk failure on sdd1, disabling device.
Jun 5 02:36:49 emc2 kernel: [361957.271689] md/raid:md4: read error not correctable (sector 1333628936 on sdd1).
Jun 5 02:36:49 emc2 kernel: [361957.271699] md/raid:md4: read error not correctable (sector 1333628944 on sdd1).
Jun 5 02:36:49 emc2 kernel: [361957.271707] md/raid:md4: read error not correctable (sector 1333628952 on sdd1).
Jun 5 02:36:49 emc2 kernel: [361957.271716] md/raid:md4: read error not correctable (sector 1333628960 on sdd1).
Jun 5 02:36:49 emc2 kernel: [361957.271724] md/raid:md4: read error not correctable (sector 1333628968 on sdd1).
Jun 5 02:36:49 emc2 kernel: [361957.271732] md/raid:md4: read error not correctable (sector 1333628976 on sdd1).
Jun 5 02:36:49 emc2 kernel: [361957.271741] md/raid:md4: read error not correctable (sector 1333628984 on sdd1).
Jun 5 02:36:49 emc2 kernel: [361957.271749] md/raid:md4: read error not correctable (sector 1333628992 on sdd1).
Jun 5 02:36:49 emc2 kernel: [361957.271758] md/raid:md4: read error not correctable (sector 1333629000 on sdd1).
Jun 5 02:36:49 emc2 kernel: [361957.271766] md/raid:md4: read error not correctable (sector 1333629008 on sdd1).

Date: 05/06/2016 12:10 (UTC)
From: [identity profile] oldkettle.livejournal.com
блин :-( Так ещё и пересылка за свой счёт?
Нет смысла уже эти spinning drives брать, 960GB SSD в районе сотни на оферах бывают.

Вот он у меня лежит теперь, этот WD диск, и я думаю: то ли возвращать (со всей информацией, которая там есть), то ли плюнуть.

Date: 05/06/2016 13:10 (UTC)
From: [identity profile] darsh.livejournal.com
Мне 1TB мало, мне 3 надо. Кроме того, у SSD ограниченное количество циклов перезаписи, что делает их использование в RAID5 не очень осмысленным.

Date: 05/06/2016 17:01 (UTC)
From: [identity profile] oldkettle.livejournal.com
Насчёт мало 1 - верю. Но зачем тебе был бы RAID5 с SSD - не знаю :-)

Date: 05/06/2016 17:15 (UTC)
From: [identity profile] darsh.livejournal.com
Для отказоустойчивости, разумеется. Чтобы при отказе одного диска не терять данные.

Date: 05/06/2016 19:48 (UTC)
From: [identity profile] oldkettle.livejournal.com
Я для этой цели предпочитаю бэкап. Тем более, что бОльшая часть важной информации давно уже у гугля и прочих фликеров хранится.

Date: 06/06/2016 10:07 (UTC)
From: [identity profile] darsh.livejournal.com
Бэкап шести терабайт? Это где?

Я свои файлы Дропбоксу или Гуглю не дам. Совершенно нет никакой уверенности, что он не сунет туда своё испачканное в big data рыльце. С годами я всё больше становлюсь параноиком...

Date: 06/06/2016 17:49 (UTC)
From: [identity profile] oldkettle.livejournal.com
Тебе виднее, естественно, и я тоже финансовую информацию стараюсь не отдавать.

У меня разделение получается примерно такое:
личная информация - 1Гб от силы
Видео и фото - сотни ГБ.
Соответственно, личное в бэкап, остальное - в сеть. В любом случае, держать важные диски постоянно включенными, ИМХО, довольно рискованно, даже в массиве.

Date: 07/06/2016 09:25 (UTC)
From: [identity profile] darsh.livejournal.com
Да не только финансовую. И личную тоже. Именно что личную! Натравит гугл на неё свои big data алгоритмы, а потом начнёт мне показывать рекламу из серии "О, да вы в прошлом году съездили в Хорватию - не хотите в этом году в Черногорию?" - и это ещё в самом минимальном случае. А что им придёт в голову делать с моими данными завтра - один Б-г знает. Нафиг-нафиг. Я лучше куплю лишний диск и буду держать копию на нём.

А в чём риск держать диски с важной информацией постоянно включёнными, если эта информация лежит сразу на нескольких дисках (на сервере, на компе, на ноутбуке, на переносном диске в ящике стола)?

Date: 07/06/2016 19:06 (UTC)
From: [identity profile] oldkettle.livejournal.com
Насчёт гугля: ты имеешь в виду, он по фоткам тоже будет что-то определять? Если да, понятно.
А как же ты билеты покупаешь, чтобы гугль не знал, куда ты ездишь?

Насчёт постоянно включённых дисков: я думал, у тебя они в компе. Соответственно, скачки напряжения, включение-выключение и усыпание-просыпание, в общем, всё время риск. У меня диски летели, несмотря на UPS. Бэкап диск включаешь, бэкап делаешь, выключаешь, раз в неделю. Но я не думал, что у тебя столько всего, так что одним диском не обойдёшься, не вариант.

А не дешевле купить 10ТБ квоты и положить туда закрытые архивы? Впрочем, я посмотрел, разве что у китайцев.

Date: 07/06/2016 19:19 (UTC)
From: [identity profile] darsh.livejournal.com
В Google/Dropbox можно разве что запароленные архивы класть, но и то я бы подумал.
В фотках, помимо собственно изображения, есть ещё EXIF, в который при включенной геолокации пишутся географические координаты каждого снимка. Щёлк - и весь маршрут твоего отпуска как на ладони.

А откуда ему узнать? Гуглю рейсы и гостиницы в private window огнелиса (куки не сохраняет), не залогинившись - связать эти поиски с моим гугловским аккаунтом он не может (я уже говорил, что я параноик? :-)). Подтверждения о бронировании приходят мне в мой личный почтовый ящик, на моём личном сервере, к гуглу он никакого касания не имеет.

Диски у меня в компе. Вернее, в компах. В сервере - два системных 1TB в зеркале. На них же домашние директории. Файлопомойка - на 3 x 3TB RAID5. От вылета единичного диска я, таким образом, более-менее застрахован. На случай, если вдруг полетит файловая система - самые важные файлы скопированы на десктоп и ноутбук. Архивные фотки и видео - ещё и на переносной диск, который обычно лежит в столе.

Когда диски были меньше, а ленточные бекапы - больше, я бекапил на ленточный стример. Но нынешние объёмы не особенно-то и сбекапишь. А бекапить в сеть террабайты данных при upstream всего в мегабит - долго и бессмысленно.

Date: 06/06/2016 01:11 (UTC)
From: [identity profile] metelica.livejournal.com
RAID5 в наше время вообще не очень...

Date: 06/06/2016 10:04 (UTC)
From: [identity profile] darsh.livejournal.com
Ты мне это уже писал :-)

Date: 06/06/2016 10:15 (UTC)
From: [identity profile] darsh.livejournal.com
Но раз уж ты снова об этом заговорил - скажи мне, в чём сила, брат в чём преимущества RAID10 перед RAID5, что ты меня уже третий год так настойчиво уговариваешь на RAID10 перейти? :-)

Date: 07/06/2016 08:11 (UTC)
From: [identity profile] metelica.livejournal.com
Нагрузка на диски.
В RAID5 из N дисков для записи блока надо сначала сделать N-2 операции чтения, а потом 2 операции записи. В RAID10 только 2 операции записи.
Ну и самое страшное испытание для RAID5 - восстановление массива.

Date: 07/06/2016 09:17 (UTC)
From: [identity profile] darsh.livejournal.com
То есть увеличенная нагрузка - в N-2 операциях чтения? Но ведь чтение с точки зрения физики не меняет ничего на диске, а, стало быть, и ресурс диска не снижает. Тем более, что в маленьких рейдах типа моего, где N обычно равно трём, реже четырём, а при пяти я начинаю задумываться о переходе обратно на N=3, но с дисками бОльшего размера - так вот, при N=3 операция чтения всего одна. Это не такая уж высокая плата за ту гибкость конфигурации, которую даёт RAID5 по сравнению с RAID10.

Посуди сам. Вот сейчас у меня три 3TB диска, формирующих массив на 6TB. Чтобы мне получить те же 6TB на RAID10, мне понадобятся не три, а четыре 3TB диска - то есть дополнительные £90. Идём далее. Эти 6TB сейчас забиты на 80%, то есть вскоре мне понадобится этот массив расширять. При RAID5 я просто покупаю ещё один 3TB диск и добавляю его в массив - и массив становится 9TB - ещё на пару лет хватит. При RAID10 мне понадобятся уже два 3TB диска.
Что мы получаем в итоге? Что RAID10 банально дороже. Чтобы получить 6TB, для RAID5 мне нужно 3 диска, для RAID10 - четыре. Чтобы получить 9TB, для RAID5 мне нужно 4 диска, для RAID10 - 6. И так далее - для каждого нового расширения RAID10 требует в два раза больше дисков. Если я, конечно, правильно понимаю суть RAID10 - это RAID0 массив поверх пар дисков в RAID1.

Что до восстановления массива - в процессе синхронизации данные пишутся только на новый диск (что, кстати, хорошая его проверка - если он сбойный, я это сразу увижу). Да, занимает время и грузит процессор. Но даже в моей конфигурации (3 x 3TB, слабенький AMD E-450 проц) это занимает часов десять. А поскольку я обычно ставлю новый диск вечером - к утру массив уже готов. Меня, если честно, не напрягает, тем более, что никаких задач, требующих много процессора, на этом сервере не крутится.

May 31 22:31:33 emc2 kernel: [ 1417.717630] md: recovery of RAID array md4
Jun 1 08:08:04 emc2 kernel: [36030.511357] md: md4: recovery done.
Edited Date: 07/06/2016 09:26 (UTC)

Profile

darsh: (Default)
Darsh

February 2017

M T W T F S S
  12345
6789101112
13 141516 171819
20212223242526
2728     

Most Popular Tags

Style Credit

Expand Cut Tags

No cut tags
Page generated 20/09/2017 18:14
Powered by Dreamwidth Studios