[RU-NGI] strange behavior of adaptec controller with xfs

Tue Dec 23 13:48:26 MSK 2014

On Tue, 23 Dec 2014, Victor Kotlyar wrote:

> Всем доброго дня!
>
> Встретились с очень странным поведением контроллера
> Adaptec 6405 c xfs.
>
> Может быть кто-то с этим встречался и что-то сможет подсказать.
>

У нас есть несколько с таким же h/w, но все под SL6.6.
Пару раз были аналогичные проблемы, когда система
грузиласб с RAID6. Тогда, при выпадении диска из RAID6,
система рушилась, впадала в panic. Мне кажется, это
связано с тем, что при начале rebuild соответсвующий
диск /dev/sdX удалялся из системы и присоединялся заново,
на консоле в этот момент появлялось сообщение типа:
{{{
[sda] Very big device. Trying to use READ CAPACITY(16).
[sdb] 1953525168 512-byte logical blocks: (1.00 TB/931 GiB)
}}}
Это случалось на SL6.4.
После установки доп. диска для системы и обновлений
драйвера, это не приводит к фатальным ошибкам.
Но есть подозрения, что на старом драйвере кэш
системы не сбрасывался в такие моменты. Мы время
от времени находим "битые" файлы на наших dcache'ах,
такие, у которых checksum при пересчете его с самого файла
не совпадает с тем, что dcache сохранил у себя.
у нас параметры контроллера такие:
{{{
----------------------------------------------------------------------
Controller information
----------------------------------------------------------------------
    Controller Status                        : Optimal
    Channel description                      : SAS/SATA
    Controller Model                         : Adaptec 6405
    Controller Serial Number                 : 2B411214C2F
    Controller World Wide Name               : 50000D1105CC0E80
    Physical Slot                            : 3
    Temperature                              : 41 C/ 105 F (Normal)
    Installed memory                         : 512 MB
    Copyback                                 : Disabled
    Background consistency check             : Enabled
    Background consistency check period      : 30
    Automatic Failover                       : Enabled
    Global task priority                     : High
    Performance Mode                         : OLTP/Database
    Host bus type                            : PCIe
    Host bus speed                           : 5000 MHz
    Host bus link width                      : 4 bit(s)/link(s)
    Stayawake period                         : Disabled
    Spinup limit internal drives             : 4
    Spinup limit external drives             : 4
    Defunct disk drive count                 : 0
    Logical devices/Failed/Degraded          : 1/0/0
    NCQ status                               : Enabled
    Statistics data collection mode          : Enabled
    --------------------------------------------------------
    Controller Version Information
    --------------------------------------------------------
    BIOS                                     : 5.2-0 (19112)
    Firmware                                 : 5.2-0 (19112)
    Driver                                   : 1.2-1 (40700)
    Boot Flash                               : 5.2-0 (19112)
}}}
Надо бы поставить read/write cache в off, но пока
не "созрели" для такого радикального шага.
Сейчас на логическом диске:
{{{
Logical device number 0
    Logical device name                      : rdc25
    Block Size of member drives              : 512 Bytes
    RAID level                               : 6 Reed-Solomon
    Unique Identifier                        : C7738B2F
    Status of logical device                 : Optimal
    Size                                     : 62853110 MB
    Parity space                             : 5713920 MB
    Stripe-unit size                         : 256 KB
    Read-cache setting                       : Enabled
    Read-cache status                        : On
    Write-cache setting                      : Enabled
    Write-cache status                       : On
    Partitioned                              : Yes
    Protected by Hot-Spare                   : No
    Bootable                                 : Yes
    Failed stripes                           : No
    Power settings                           : Disabled
}}}

>
> Есть RAID6 24x3TB. Логически всё разбито на партиции по 10ТБ.
>
> В рейде вышел из строя диск, заменили, начался ребилд.
>
> Через какое-то время, на одной из партиций посыпались ошибки [1]
>
> Отмонтировали, ребилд шёл.
>
> Запустил во время ребилда xfs_repair в чек моде - он нашёл кучу ошибок.
> Запустил через некоторое время ещё, ошибки другие появились.
>
> Дождались окончания ребилда.
>
> Запускаем xfs_reair - ошибка одна!!!!!!!!!!!!
>
> Монтирует\размонтируем партицию - ошибок ноль!!!!!!
>
> repair не делали вообще!!!
>
> Вопрос, что происходит, не понятно.
> При ребилде диска, какой-то мусор идёт при чтении получается?
>
> Параметры системы в [2]
>
> Спасибо заранее!
>
> С уважением
> Виктор Котляр
>
>
>
>
> [1]
> {{{
> Dec 22 17:30:02 dp0026 kernel: [24168841.408297] Pid: 28973, comm: java Not 
> tainted 2.6.32-5-amd64 #1
> Dec 22 17:30:02 dp0026 kernel: [24168841.408299] Call Trace:
> Dec 22 17:30:02 dp0026 kernel: [24168841.408316]  [<ffffffffa0247160>] ? 
> xfs_btree_read_buf_block+0x6d/0x8f [xfs]
> Dec 22 17:30:02 dp0026 kernel: [24168841.408327]  [<ffffffffa0247037>] ? 
> xfs_btree_check_sblock+0xbd/0xc4 [xfs]
> Dec 22 17:30:02 dp0026 kernel: [24168841.408338]  [<ffffffffa0247160>] ? 
> xfs_btree_read_buf_block+0x6d/0x8f [xfs]
> Dec 22 17:30:02 dp0026 kernel: [24168841.408349]  [<ffffffffa0247160>] ? 
> xfs_btree_read_buf_block+0x6d/0x8f [xfs]
> Dec 22 17:30:02 dp0026 kernel: [24168841.408359]  [<ffffffffa0248167>] ? 
> xfs_btree_lookup_get_block+0x87/0xac [xfs]
> Dec 22 17:30:02 dp0026 kernel: [24168841.408370]  [<ffffffffa024872d>] ? 
> xfs_btree_lookup+0x12a/0x3cc [xfs]
> Dec 22 17:30:02 dp0026 kernel: [24168841.408381]  [<ffffffffa027221e>] ? 
> kmem_zone_zalloc+0x1e/0x2e [xfs]
> Dec 22 17:30:02 dp0026 kernel: [24168841.408390]  [<ffffffffa0237072>] ? 
> xfs_allocbt_init_cursor+0x35/0x91 [xfs]
> Dec 22 17:30:02 dp0026 kernel: [24168841.408399]  [<ffffffffa0234e07>] ? 
> xfs_free_ag_extent+0x5b/0x665 [xfs]
> Dec 22 17:30:02 dp0026 kernel: [24168841.408408]  [<ffffffffa0236bc1>] ? 
> xfs_free_extent+0x9a/0xb8 [xfs]
> Dec 22 17:30:02 dp0026 kernel: [24168841.408419]  [<ffffffffa026d4da>] ? 
> xfs_trans_get_efd+0x21/0x29 [xfs]
> Dec 22 17:30:02 dp0026 kernel: [24168841.408429]  [<ffffffffa0241fba>] ? 
> xfs_bmap_finish+0xef/0x162 [xfs]
> Dec 22 17:30:02 dp0026 kernel: [24168841.408441]  [<ffffffffa025c002>] ? 
> xfs_itruncate_finish+0x17d/0x295 [xfs]
> Dec 22 17:30:02 dp0026 kernel: [24168841.408452]  [<ffffffffa0270a41>] ? 
> xfs_inactive+0x1d4/0x3f0 [xfs]
> Dec 22 17:30:02 dp0026 kernel: [24168841.408456]  [<ffffffff81100b87>] ? 
> clear_inode+0x79/0xd0
> Dec 22 17:30:02 dp0026 kernel: [24168841.408459]  [<ffffffff811012c4>] ? 
> generic_delete_inode+0xf4/0x168
> Dec 22 17:30:02 dp0026 kernel: [24168841.408462]  [<ffffffff810f9f98>] ? 
> do_unlinkat+0xf7/0x149
> Dec 22 17:30:02 dp0026 kernel: [24168841.408466]  [<ffffffff8110c61d>] ? 
> vfs_fsync_range+0x88/0x9e
> Dec 22 17:30:02 dp0026 kernel: [24168841.408469]  [<ffffffff81010b42>] ? 
> system_call_fastpath+0x16/0x1b
> Dec 22 17:30:02 dp0026 kernel: [24168841.408475] xfs_force_shutdown(sda6,0x8) 
> called from line 4341 of file 
> /build/linux-2.6-G2sgEm/linux-2.6-2.6.32/debian/build/source_amd64_none/fs/xfs/xfs_bmap.c. 
> Return address = 0xffffffffa0241fef
> Dec 22 17:30:20 dp0026 kernel: [24168859.412127] Filesystem "sda6": 
> xfs_log_force: error 5 returned.
>
> }}}
>
>
> [2]
> 2.6.32-5-amd64
> debian_version 6.0.4
> xfsprogs  3.1.4
>
> RAID level                               : 6 Reed-Solomon
> Status of logical device                 : Optimal
> Size                                     : 62853110 MB
> Stripe-unit size                         : 256 KB
> Read-cache mode                          : Enabled
> Write-cache mode                         : Enabled (write-back)
> Write-cache setting                      : Enabled (write-back)
> Partitioned                              : Yes
> Protected by Hot-Spare                   : No
> Bootable                                 : Yes
> Failed stripes                           : No
> Power settings                           : Disabled
> _______________________________________________
> RU-NGI mailing list
> RU-NGI at theory.sinp.msu.ru
> http://theory.sinp.msu.ru/mailman/listinfo/ru-ngi
>

-- 
Best regards,
  Valery Mitsyn