|
Документ взят из кэша поисковой машины. Адрес
оригинального документа
: http://theory.sinp.msu.ru/pipermail/ru-ngi/2014q4/001482.html
Дата изменения: Mon Dec 29 22:40:53 2014 Дата индексирования: Sun Apr 10 18:09:55 2016 Кодировка: |
On Tue, 23 Dec 2014, Victor Kotlyar wrote:
> Всем доброго дня!
>
> Встретились с очень странным поведением контроллера
> Adaptec 6405 c xfs.
>
> Может быть кто-то с этим встречался и что-то сможет подсказать.
>
У нас есть несколько с таким же h/w, но все под SL6.6.
Пару раз были аналогичные проблемы, когда система
грузиласб с RAID6. Тогда, при выпадении диска из RAID6,
система рушилась, впадала в panic. Мне кажется, это
связано с тем, что при начале rebuild соответсвующий
диск /dev/sdX удалялся из системы и присоединялся заново,
на консоле в этот момент появлялось сообщение типа:
{{{
[sda] Very big device. Trying to use READ CAPACITY(16).
[sdb] 1953525168 512-byte logical blocks: (1.00 TB/931 GiB)
}}}
Это случалось на SL6.4.
После установки доп. диска для системы и обновлений
драйвера, это не приводит к фатальным ошибкам.
Но есть подозрения, что на старом драйвере кэш
системы не сбрасывался в такие моменты. Мы время
от времени находим "битые" файлы на наших dcache'ах,
такие, у которых checksum при пересчете его с самого файла
не совпадает с тем, что dcache сохранил у себя.
у нас параметры контроллера такие:
{{{
----------------------------------------------------------------------
Controller information
----------------------------------------------------------------------
Controller Status : Optimal
Channel description : SAS/SATA
Controller Model : Adaptec 6405
Controller Serial Number : 2B411214C2F
Controller World Wide Name : 50000D1105CC0E80
Physical Slot : 3
Temperature : 41 C/ 105 F (Normal)
Installed memory : 512 MB
Copyback : Disabled
Background consistency check : Enabled
Background consistency check period : 30
Automatic Failover : Enabled
Global task priority : High
Performance Mode : OLTP/Database
Host bus type : PCIe
Host bus speed : 5000 MHz
Host bus link width : 4 bit(s)/link(s)
Stayawake period : Disabled
Spinup limit internal drives : 4
Spinup limit external drives : 4
Defunct disk drive count : 0
Logical devices/Failed/Degraded : 1/0/0
NCQ status : Enabled
Statistics data collection mode : Enabled
--------------------------------------------------------
Controller Version Information
--------------------------------------------------------
BIOS : 5.2-0 (19112)
Firmware : 5.2-0 (19112)
Driver : 1.2-1 (40700)
Boot Flash : 5.2-0 (19112)
}}}
Надо бы поставить read/write cache в off, но пока
не "созрели" для такого радикального шага.
Сейчас на логическом диске:
{{{
Logical device number 0
Logical device name : rdc25
Block Size of member drives : 512 Bytes
RAID level : 6 Reed-Solomon
Unique Identifier : C7738B2F
Status of logical device : Optimal
Size : 62853110 MB
Parity space : 5713920 MB
Stripe-unit size : 256 KB
Read-cache setting : Enabled
Read-cache status : On
Write-cache setting : Enabled
Write-cache status : On
Partitioned : Yes
Protected by Hot-Spare : No
Bootable : Yes
Failed stripes : No
Power settings : Disabled
}}}
>
> Есть RAID6 24x3TB. Логически всё разбито на партиции по 10ТБ.
>
> В рейде вышел из строя диск, заменили, начался ребилд.
>
> Через какое-то время, на одной из партиций посыпались ошибки [1]
>
> Отмонтировали, ребилд шёл.
>
> Запустил во время ребилда xfs_repair в чек моде - он нашёл кучу ошибок.
> Запустил через некоторое время ещё, ошибки другие появились.
>
> Дождались окончания ребилда.
>
> Запускаем xfs_reair - ошибка одна!!!!!!!!!!!!
>
> Монтирует\размонтируем партицию - ошибок ноль!!!!!!
>
> repair не делали вообще!!!
>
> Вопрос, что происходит, не понятно.
> При ребилде диска, какой-то мусор идёт при чтении получается?
>
> Параметры системы в [2]
>
> Спасибо заранее!
>
> С уважением
> Виктор Котляр
>
>
>
>
> [1]
> {{{
> Dec 22 17:30:02 dp0026 kernel: [24168841.408297] Pid: 28973, comm: java Not
> tainted 2.6.32-5-amd64 #1
> Dec 22 17:30:02 dp0026 kernel: [24168841.408299] Call Trace:
> Dec 22 17:30:02 dp0026 kernel: [24168841.408316] [<ffffffffa0247160>] ?
> xfs_btree_read_buf_block+0x6d/0x8f [xfs]
> Dec 22 17:30:02 dp0026 kernel: [24168841.408327] [<ffffffffa0247037>] ?
> xfs_btree_check_sblock+0xbd/0xc4 [xfs]
> Dec 22 17:30:02 dp0026 kernel: [24168841.408338] [<ffffffffa0247160>] ?
> xfs_btree_read_buf_block+0x6d/0x8f [xfs]
> Dec 22 17:30:02 dp0026 kernel: [24168841.408349] [<ffffffffa0247160>] ?
> xfs_btree_read_buf_block+0x6d/0x8f [xfs]
> Dec 22 17:30:02 dp0026 kernel: [24168841.408359] [<ffffffffa0248167>] ?
> xfs_btree_lookup_get_block+0x87/0xac [xfs]
> Dec 22 17:30:02 dp0026 kernel: [24168841.408370] [<ffffffffa024872d>] ?
> xfs_btree_lookup+0x12a/0x3cc [xfs]
> Dec 22 17:30:02 dp0026 kernel: [24168841.408381] [<ffffffffa027221e>] ?
> kmem_zone_zalloc+0x1e/0x2e [xfs]
> Dec 22 17:30:02 dp0026 kernel: [24168841.408390] [<ffffffffa0237072>] ?
> xfs_allocbt_init_cursor+0x35/0x91 [xfs]
> Dec 22 17:30:02 dp0026 kernel: [24168841.408399] [<ffffffffa0234e07>] ?
> xfs_free_ag_extent+0x5b/0x665 [xfs]
> Dec 22 17:30:02 dp0026 kernel: [24168841.408408] [<ffffffffa0236bc1>] ?
> xfs_free_extent+0x9a/0xb8 [xfs]
> Dec 22 17:30:02 dp0026 kernel: [24168841.408419] [<ffffffffa026d4da>] ?
> xfs_trans_get_efd+0x21/0x29 [xfs]
> Dec 22 17:30:02 dp0026 kernel: [24168841.408429] [<ffffffffa0241fba>] ?
> xfs_bmap_finish+0xef/0x162 [xfs]
> Dec 22 17:30:02 dp0026 kernel: [24168841.408441] [<ffffffffa025c002>] ?
> xfs_itruncate_finish+0x17d/0x295 [xfs]
> Dec 22 17:30:02 dp0026 kernel: [24168841.408452] [<ffffffffa0270a41>] ?
> xfs_inactive+0x1d4/0x3f0 [xfs]
> Dec 22 17:30:02 dp0026 kernel: [24168841.408456] [<ffffffff81100b87>] ?
> clear_inode+0x79/0xd0
> Dec 22 17:30:02 dp0026 kernel: [24168841.408459] [<ffffffff811012c4>] ?
> generic_delete_inode+0xf4/0x168
> Dec 22 17:30:02 dp0026 kernel: [24168841.408462] [<ffffffff810f9f98>] ?
> do_unlinkat+0xf7/0x149
> Dec 22 17:30:02 dp0026 kernel: [24168841.408466] [<ffffffff8110c61d>] ?
> vfs_fsync_range+0x88/0x9e
> Dec 22 17:30:02 dp0026 kernel: [24168841.408469] [<ffffffff81010b42>] ?
> system_call_fastpath+0x16/0x1b
> Dec 22 17:30:02 dp0026 kernel: [24168841.408475] xfs_force_shutdown(sda6,0x8)
> called from line 4341 of file
> /build/linux-2.6-G2sgEm/linux-2.6-2.6.32/debian/build/source_amd64_none/fs/xfs/xfs_bmap.c.
> Return address = 0xffffffffa0241fef
> Dec 22 17:30:20 dp0026 kernel: [24168859.412127] Filesystem "sda6":
> xfs_log_force: error 5 returned.
>
> }}}
>
>
> [2]
> 2.6.32-5-amd64
> debian_version 6.0.4
> xfsprogs 3.1.4
>
> RAID level : 6 Reed-Solomon
> Status of logical device : Optimal
> Size : 62853110 MB
> Stripe-unit size : 256 KB
> Read-cache mode : Enabled
> Write-cache mode : Enabled (write-back)
> Write-cache setting : Enabled (write-back)
> Partitioned : Yes
> Protected by Hot-Spare : No
> Bootable : Yes
> Failed stripes : No
> Power settings : Disabled
> _______________________________________________
> RU-NGI mailing list
> RU-NGI at theory.sinp.msu.ru
> http://theory.sinp.msu.ru/mailman/listinfo/ru-ngi
>
--
Best regards,
Valery Mitsyn