CPU負荷か、io負荷か
top - 16:22:27 up 19:40, 4 users, load average: 3.61, 3.65, 3.68
Tasks: 248 total, 1 running, 247 sleeping, 0 stopped, 0 zombie
%Cpu0 : 0.0 us, 0.0 sy, 0.0 ni,100.0 id, 0.0 wa, 0.0 hi, 0.0 si, 0.0 st
%Cpu1 : 0.0 us, 0.0 sy, 0.0 ni,100.0 id, 0.0 wa, 0.0 hi, 0.0 si, 0.0 st
%Cpu2 : 0.7 us, 0.3 sy, 0.0 ni, 99.0 id, 0.0 wa, 0.0 hi, 0.0 si, 0.0 st
%Cpu3 : 0.0 us, 0.3 sy, 0.0 ni, 99.7 id, 0.0 wa, 0.0 hi, 0.0 si, 0.0 st
%Cpu4 : 0.0 us, 0.0 sy, 0.0 ni,100.0 id, 0.0 wa, 0.0 hi, 0.0 si, 0.0 st
%Cpu5 : 0.0 us, 0.0 sy, 0.0 ni,100.0 id, 0.0 wa, 0.0 hi, 0.0 si, 0.0 st
%Cpu6 : 0.0 us, 0.0 sy, 0.0 ni,100.0 id, 0.0 wa, 0.0 hi, 0.0 si, 0.0 st
%Cpu7 : 0.0 us, 0.0 sy, 0.0 ni, 99.0 id, 1.0 wa, 0.0 hi, 0.0 si, 0.0 st
KiB Mem: 32822800 total, 32590444 used, 232356 free, 2047512 buffers
KiB Swap: 33428476 total, 0 used, 33428476 free. 29190996 cached Mem
topコマンドはCPUのロードアベレージが360%オーバー。でもCPU自体は別に分回ってない。
sarコマンドを入れて確認する。
$ sudo apt-get install sysstat $ sudo vi /etc/default/sysstat
↑のファイルの
9 ENABLED="true"
↑L9をfalse => trueにする
$ sudo vi /etc/cron.d/sysstat
↑の
6 5-55/1 * * * * root command -v debian-sa1 > /dev/null && debian-sa1 1 1
6 5-55/10を6 5-55/1にして1分毎にログを取らせる(後で止めよう)
$ sudo service crond restart $ sudo service sysstat restart
一応再起動。
$ sar -u 16時19分01秒 CPU %user %nice %system %iowait %steal %idle 16時20分01秒 all 0.08 0.00 0.24 2.62 0.00 97.06 16時21分02秒 all 0.06 0.00 0.30 3.64 0.00 96.00 16時22分01秒 all 0.06 0.00 0.16 2.16 0.00 97.62 16時23分01秒 all 0.08 0.00 0.23 2.13 0.00 97.57 16時24分01秒 all 0.08 0.00 0.13 1.09 0.00 98.70 16時25分01秒 all 0.11 0.00 0.16 2.17 0.00 97.56 16時26分01秒 all 0.08 0.00 0.09 2.32 0.00 97.51 平均値: all 0.08 0.00 0.19 2.30 0.00 97.43
明らかにiowaitの負荷が超高いのは確か。。。
stripe_cacheサイズを増やしてみる
blog.fusic.co.jp
Linux RAID mdraid "stripe_cache_size" vs. transfer rate | Peter Kieser
うーん
kernelの問題?
dmesgを見たら6GのSATAなのに1.5Gにデグレートして動いた上、コマンド処理でNGになってた。
1 [61327.982286] ata12.00: status: { DRDY } 2 [61327.982293] ata12: hard resetting link 3 [61328.302747] ata12: SATA link up 1.5 Gbps (SStatus 113 SControl 310) 4 [61328.305959] ata12.00: configured for UDMA/33 5 [61328.306468] ata12.00: device reported invalid CHS sector 0 6 [61328.306479] ata12: EH complete 7 [61370.994341] ata12.00: exception Emask 0x0 SAct 0x0 SErr 0x0 action 0x6 frozen 8 [61370.994345] ata12.00: failed command: WRITE DMA EXT 9 [61370.994359] ata12.00: cmd 35/00:00:00:b8:4a/00:04:16:00:00/e0 tag 4 dma 524288 out 10 [61370.994360] ata12.00: status: { DRDY } 11 [61370.994362] ata12: hard resetting link 12 [61371.314854] ata12: SATA link up 1.5 Gbps (SStatus 113 SControl 310) 13 [61371.318456] ata12.00: configured for UDMA/33 14 [61371.318965] ata12.00: device reported invalid CHS sector 0 15 [61371.318968] ata12: EH complete 16 [61405.040271] ata12.00: exception Emask 0x0 SAct 0x0 SErr 0x0 action 0x6 frozen 17 [61405.040275] ata12.00: failed command: WRITE DMA EXT 18 [61405.040279] ata12.00: cmd 35/00:80:80:8b:4d/00:00:16:00:00/e0 tag 5 dma 65536 out 19 [61405.040281] ata12.00: status: { DRDY } 20 [61405.040284] ata12: hard resetting link 21 [61405.360811] ata12: SATA link up 1.5 Gbps (SStatus 113 SControl 310) 22 [61405.364866] ata12.00: configured for UDMA/33 23 [61405.365370] ata12.00: device reported invalid CHS sector 0 24 [61405.365381] ata12: EH complete 25 [61450.159797] ata12.00: exception Emask 0x0 SAct 0x0 SErr 0x0 action 0x6 frozen 26 [61450.159809] ata12.00: failed command: WRITE DMA EXT 27 [61450.159820] ata12.00: cmd 35/00:40:c0:27:5b/00:00:16:00:00/e0 tag 13 dma 32768 out 28 [61450.159826] ata12.00: status: { DRDY } 29 [61450.159834] ata12: hard resetting link 30 [61450.480286] ata12: SATA link up 1.5 Gbps (SStatus 113 SControl 310)
該当の ata12 だけでmkfsして20GB程ddしてみたら200MB/s位は普通にエラー無しで処理するっぽいので恐らくHDD故障では無いと思うのですが・・・。Ubuntu 14.04でやってるのでkernel versionが古いことに何らか原因があるのかも知れない。。。
・・・続く?