Документ взят из кэша поисковой машины. Адрес
оригинального документа
: http://theory.sinp.msu.ru/pipermail/ru-ngi/2014q4/001482.html
Дата изменения: Mon Dec 29 22:40:53 2014 Дата индексирования: Sun Apr 10 18:09:55 2016 Кодировка: |
On Tue, 23 Dec 2014, Victor Kotlyar wrote: > Всем доброго дня! > > Встретились с очень странным поведением контроллера > Adaptec 6405 c xfs. > > Может быть кто-то с этим встречался и что-то сможет подсказать. > У нас есть несколько с таким же h/w, но все под SL6.6. Пару раз были аналогичные проблемы, когда система грузиласб с RAID6. Тогда, при выпадении диска из RAID6, система рушилась, впадала в panic. Мне кажется, это связано с тем, что при начале rebuild соответсвующий диск /dev/sdX удалялся из системы и присоединялся заново, на консоле в этот момент появлялось сообщение типа: {{{ [sda] Very big device. Trying to use READ CAPACITY(16). [sdb] 1953525168 512-byte logical blocks: (1.00 TB/931 GiB) }}} Это случалось на SL6.4. После установки доп. диска для системы и обновлений драйвера, это не приводит к фатальным ошибкам. Но есть подозрения, что на старом драйвере кэш системы не сбрасывался в такие моменты. Мы время от времени находим "битые" файлы на наших dcache'ах, такие, у которых checksum при пересчете его с самого файла не совпадает с тем, что dcache сохранил у себя. у нас параметры контроллера такие: {{{ ---------------------------------------------------------------------- Controller information ---------------------------------------------------------------------- Controller Status : Optimal Channel description : SAS/SATA Controller Model : Adaptec 6405 Controller Serial Number : 2B411214C2F Controller World Wide Name : 50000D1105CC0E80 Physical Slot : 3 Temperature : 41 C/ 105 F (Normal) Installed memory : 512 MB Copyback : Disabled Background consistency check : Enabled Background consistency check period : 30 Automatic Failover : Enabled Global task priority : High Performance Mode : OLTP/Database Host bus type : PCIe Host bus speed : 5000 MHz Host bus link width : 4 bit(s)/link(s) Stayawake period : Disabled Spinup limit internal drives : 4 Spinup limit external drives : 4 Defunct disk drive count : 0 Logical devices/Failed/Degraded : 1/0/0 NCQ status : Enabled Statistics data collection mode : Enabled -------------------------------------------------------- Controller Version Information -------------------------------------------------------- BIOS : 5.2-0 (19112) Firmware : 5.2-0 (19112) Driver : 1.2-1 (40700) Boot Flash : 5.2-0 (19112) }}} Надо бы поставить read/write cache в off, но пока не "созрели" для такого радикального шага. Сейчас на логическом диске: {{{ Logical device number 0 Logical device name : rdc25 Block Size of member drives : 512 Bytes RAID level : 6 Reed-Solomon Unique Identifier : C7738B2F Status of logical device : Optimal Size : 62853110 MB Parity space : 5713920 MB Stripe-unit size : 256 KB Read-cache setting : Enabled Read-cache status : On Write-cache setting : Enabled Write-cache status : On Partitioned : Yes Protected by Hot-Spare : No Bootable : Yes Failed stripes : No Power settings : Disabled }}} > > Есть RAID6 24x3TB. Логически всё разбито на партиции по 10ТБ. > > В рейде вышел из строя диск, заменили, начался ребилд. > > Через какое-то время, на одной из партиций посыпались ошибки [1] > > Отмонтировали, ребилд шёл. > > Запустил во время ребилда xfs_repair в чек моде - он нашёл кучу ошибок. > Запустил через некоторое время ещё, ошибки другие появились. > > Дождались окончания ребилда. > > Запускаем xfs_reair - ошибка одна!!!!!!!!!!!! > > Монтирует\размонтируем партицию - ошибок ноль!!!!!! > > repair не делали вообще!!! > > Вопрос, что происходит, не понятно. > При ребилде диска, какой-то мусор идёт при чтении получается? > > Параметры системы в [2] > > Спасибо заранее! > > С уважением > Виктор Котляр > > > > > [1] > {{{ > Dec 22 17:30:02 dp0026 kernel: [24168841.408297] Pid: 28973, comm: java Not > tainted 2.6.32-5-amd64 #1 > Dec 22 17:30:02 dp0026 kernel: [24168841.408299] Call Trace: > Dec 22 17:30:02 dp0026 kernel: [24168841.408316] [<ffffffffa0247160>] ? > xfs_btree_read_buf_block+0x6d/0x8f [xfs] > Dec 22 17:30:02 dp0026 kernel: [24168841.408327] [<ffffffffa0247037>] ? > xfs_btree_check_sblock+0xbd/0xc4 [xfs] > Dec 22 17:30:02 dp0026 kernel: [24168841.408338] [<ffffffffa0247160>] ? > xfs_btree_read_buf_block+0x6d/0x8f [xfs] > Dec 22 17:30:02 dp0026 kernel: [24168841.408349] [<ffffffffa0247160>] ? > xfs_btree_read_buf_block+0x6d/0x8f [xfs] > Dec 22 17:30:02 dp0026 kernel: [24168841.408359] [<ffffffffa0248167>] ? > xfs_btree_lookup_get_block+0x87/0xac [xfs] > Dec 22 17:30:02 dp0026 kernel: [24168841.408370] [<ffffffffa024872d>] ? > xfs_btree_lookup+0x12a/0x3cc [xfs] > Dec 22 17:30:02 dp0026 kernel: [24168841.408381] [<ffffffffa027221e>] ? > kmem_zone_zalloc+0x1e/0x2e [xfs] > Dec 22 17:30:02 dp0026 kernel: [24168841.408390] [<ffffffffa0237072>] ? > xfs_allocbt_init_cursor+0x35/0x91 [xfs] > Dec 22 17:30:02 dp0026 kernel: [24168841.408399] [<ffffffffa0234e07>] ? > xfs_free_ag_extent+0x5b/0x665 [xfs] > Dec 22 17:30:02 dp0026 kernel: [24168841.408408] [<ffffffffa0236bc1>] ? > xfs_free_extent+0x9a/0xb8 [xfs] > Dec 22 17:30:02 dp0026 kernel: [24168841.408419] [<ffffffffa026d4da>] ? > xfs_trans_get_efd+0x21/0x29 [xfs] > Dec 22 17:30:02 dp0026 kernel: [24168841.408429] [<ffffffffa0241fba>] ? > xfs_bmap_finish+0xef/0x162 [xfs] > Dec 22 17:30:02 dp0026 kernel: [24168841.408441] [<ffffffffa025c002>] ? > xfs_itruncate_finish+0x17d/0x295 [xfs] > Dec 22 17:30:02 dp0026 kernel: [24168841.408452] [<ffffffffa0270a41>] ? > xfs_inactive+0x1d4/0x3f0 [xfs] > Dec 22 17:30:02 dp0026 kernel: [24168841.408456] [<ffffffff81100b87>] ? > clear_inode+0x79/0xd0 > Dec 22 17:30:02 dp0026 kernel: [24168841.408459] [<ffffffff811012c4>] ? > generic_delete_inode+0xf4/0x168 > Dec 22 17:30:02 dp0026 kernel: [24168841.408462] [<ffffffff810f9f98>] ? > do_unlinkat+0xf7/0x149 > Dec 22 17:30:02 dp0026 kernel: [24168841.408466] [<ffffffff8110c61d>] ? > vfs_fsync_range+0x88/0x9e > Dec 22 17:30:02 dp0026 kernel: [24168841.408469] [<ffffffff81010b42>] ? > system_call_fastpath+0x16/0x1b > Dec 22 17:30:02 dp0026 kernel: [24168841.408475] xfs_force_shutdown(sda6,0x8) > called from line 4341 of file > /build/linux-2.6-G2sgEm/linux-2.6-2.6.32/debian/build/source_amd64_none/fs/xfs/xfs_bmap.c. > Return address = 0xffffffffa0241fef > Dec 22 17:30:20 dp0026 kernel: [24168859.412127] Filesystem "sda6": > xfs_log_force: error 5 returned. > > }}} > > > [2] > 2.6.32-5-amd64 > debian_version 6.0.4 > xfsprogs 3.1.4 > > RAID level : 6 Reed-Solomon > Status of logical device : Optimal > Size : 62853110 MB > Stripe-unit size : 256 KB > Read-cache mode : Enabled > Write-cache mode : Enabled (write-back) > Write-cache setting : Enabled (write-back) > Partitioned : Yes > Protected by Hot-Spare : No > Bootable : Yes > Failed stripes : No > Power settings : Disabled > _______________________________________________ > RU-NGI mailing list > RU-NGI at theory.sinp.msu.ru > http://theory.sinp.msu.ru/mailman/listinfo/ru-ngi > -- Best regards, Valery Mitsyn