[RU-NGI] need hekp

Tue Jul 23 11:37:04 MSK 2013

Спасибо.

у нас на RAID6 были такие проблемы, два диска вылетело и на двух горели
ECC-error

Мы использовали команду игнора ECC-error для рейда и рейд отребилдился.

Про большую потерю данных не помню.

Удачи!
Виктор

On 07/23/2013 08:29 AM, Yevgeniy Lyublev wrote:
> Спасибо, Евгений.
> Попробую воспользоваться вашими советами.
> То, что рушится 2-й диск, я понимаю.
> Цель - довести ремонт RAID'a до 100%, а потом диск заменить 
> безусловно.
> Удачи. Евгений.
>
> Tue, Jul 23, 2013 at 09:19:45AM +0400, Yevgeniy Lyublev wrote:
>> Необходимы помощь или совет.
>> Есть RAID 5, при Rebuild возникает проблема со вторым диском -
>
> Со вторым по счету или у вас два диска с пробемами?
>
>> 0026 Drive ECC error reported
>> Event Type
>> Error
>> Cause
>> Drive ECC errors are an indication of grown defects on a particular 
>> drive. For redundant units, this typically means that dynamic sector 
>> repair has been invoked (see message 0023 Sector repair completed).
>> For non-redundant units (Single Disk, RAID 0 and degraded units), 
>> which do not have another copy of the data, drive ECC errors result 
>> in the 3ware RAID controller returning failed status to the 
>> associated host command.
>
> Насколько я понимаю, контроллер говорит, что у диска посыпался сектор, а
dynamic repair -- это просто подсчет содержимого этого сектора из остатка
данных и контрольной суммы и переписывание его содержимого, когда диск
сделает bad sector reallocation.
>
>> Вроде не критическая и можно как-то ее решить, но не знаю как.
>
> Я бы, если систему можно на какое-то время положить в down, вытащил 
> диск и проверил бы состояние его SMART обычными утилитами типа 
> smartctl (но тесты бы не гонял во избежание дальнейшего осыпания 
> секторов).  Очень может быть, что у вас растет количество bad-секторов 
> и вопрос состоит в том, какова динамика роста и хватает ли еще у вас 
> дополнительных секторов, в которые делается remap плохих.  Если есть 
> запас таких дисков для замены и у вас действительно поврежден только 
> один диск, то я бы его заменил; хотя есть вероятность отказа второго 
> диска при rebuild, но вам этот диск, скорее всего, нужно будет всё 
> равно когда-то заменять -- если он начал "сыпаться", то будет 
> продолжать это делать -- так что если не сейчас, так потом.  Но у меня 
> нет хорошей статистики по RAID5, поскольку у нас везде RAID6
> используется: диски летят нередко, а терять массивы не хочется.
> --
> Eygene Ryabinkin, National Research Centre "Kurchatov Institute"
>
> Always code as if the guy who ends up maintaining your code will be a
violent psychopath who knows where you live.
> _______________________________________________
> RU-NGI mailing list
> RU-NGI at theory.sinp.msu.ru
> http://theory.sinp.msu.ru/mailman/listinfo/ru-ngi
>