Fórum cPanel: Problema com HD novamente em menos de 2 semanas - Fórum cPanel

Ir para


Page 1 of 1
  • You cannot start a new topic
  • You cannot reply to this topic

Problema com HD novamente em menos de 2 semanas

#1 Membro offline   Insert 

  • Esse é irmão!!
  • PipPipPipPipPipPip
  • Grupo: Membros
  • Posts: 336
  • Cadastrado: 11-setembro 09

Posted 04 novembro 2010 - 10:17

Rodo num servidor backup diario com inico a 1hr da manha e mysql num HD secundário.

Acontece que ha algusn dias comecei a ter falhas neste HD secundario onde ele ficava como ready only, ate que começou a ser frenquente e fiz a troca do HD.

Depois de alguns dias(esta semana) começou o mesmo problema novamente.

Todo dia as 4hs da manha o HD passa a ficar como ready only, notei que o load fica em 30.0, ja chquei cron e nao achei nada suspeito que pudesse fazer isso.

Sera falha na crontroladora? Porque o servidor tem uma controladora RAID mas nao uso os discos em RAID.

Segue log de hoje:

Nov 4 04:17:28 XXXX kernel: mptbase: ioc0: LogInfo(0x31080000): Originator={PL}, Code={SATA NCQ Fail All Commands After Error}, SubCode(0x0000)
Nov 4 04:17:30 XXXX kernel: mptbase: ioc0: LogInfo(0x31123000): Originator={PL}, Code={Abort}, SubCode(0x3000)
Nov 4 04:17:46 XXXX kernel: mptbase: ioc0: LogInfo(0x31123000): Originator={PL}, Code={Abort}, SubCode(0x3000)
Nov 4 04:18:02 XXXX kernel: mptbase: ioc0: LogInfo(0x31123000): Originator={PL}, Code={Abort}, SubCode(0x3000)
Nov 4 04:18:15 XXXX kernel: mptbase: ioc0: LogInfo(0x31080000): Originator={PL}, Code={SATA NCQ Fail All Commands After Error}, SubCode(0x0000)
Nov 4 04:18:18 XXXX kernel: mptbase: ioc0: LogInfo(0x31123000): Originator={PL}, Code={Abort}, SubCode(0x3000)
Nov 4 04:18:19 XXXX kernel: mptbase: ioc0: LogInfo(0x31123000): Originator={PL}, Code={Abort}, SubCode(0x3000)
Nov 4 04:18:23 XXXX kernel: mptbase: ioc0: LogInfo(0x31080000): Originator={PL}, Code={SATA NCQ Fail All Commands After Error}, SubCode(0x0000)
Nov 4 04:18:31 XXXX kernel: mptbase: ioc0: LogInfo(0x31123000): Originator={PL}, Code={Abort}, SubCode(0x3000)
Nov 4 04:18:48 XXXX kernel: mptbase: ioc0: LogInfo(0x31080000): Originator={PL}, Code={SATA NCQ Fail All Commands After Error}, SubCode(0x0000)
Nov 4 04:18:52 XXXX kernel: mptbase: ioc0: LogInfo(0x31080000): Originator={PL}, Code={SATA NCQ Fail All Commands After Error}, SubCode(0x0000)
Nov 4 04:18:54 XXXX kernel: mptbase: ioc0: LogInfo(0x31123000): Originator={PL}, Code={Abort}, SubCode(0x3000)
Nov 4 04:18:59 XXXX kernel: mptbase: ioc0: LogInfo(0x31123000): Originator={PL}, Code={Abort}, SubCode(0x3000)
Nov 4 04:19:39 XXXX kernel: mptbase: ioc0: LogInfo(0x31123000): Originator={PL}, Code={Abort}, SubCode(0x3000)
Nov 4 04:20:40 XXXX kernel: INFO: task kjournald:5263 blocked for more than 120 seconds.
Nov 4 04:20:40 XXXX kernel: "echo 0 > /proc/sys/kernel/hung_task_timeout_secs" disables this message.
Nov 4 04:20:40 XXXX kernel: kjournald D 00004E8F 2872 5263 11 10967 1678 (L-TLB)
Nov 4 04:20:40 XXXX kernel: f26aef40 00000046 984fe6bd 00004e8f 00000000 00000000 00000000 0000000a
Nov 4 04:20:40 XXXX kernel: f2681aa0 984fec34 00004e8f 00000577 00000001 f2681bac c2013ac4 f7af83c0
Nov 4 04:20:40 XXXX kernel: 00000400 00000000 f7d55700 c20109c4 f7af83c0 f7d55550 f26aef70 ffffffff
Nov 4 04:20:40 XXXX kernel: Call Trace:
Nov 4 04:20:40 XXXX kernel: [<f887609b>] journal_commit_transaction+0x137/0xeec [jbd]
Nov 4 04:20:40 XXXX kernel: [<c043607b>] autoremove_wake_function+0x0/0x2d
Nov 4 04:20:40 XXXX kernel: [<c042d6f4>] try_to_del_timer_sync+0x65/0x6c
Nov 4 04:20:40 XXXX kernel: [<f8879c11>] kjournald+0xa1/0x1c2 [jbd]
Nov 4 04:20:40 XXXX kernel: [<c043607b>] autoremove_wake_function+0x0/0x2d
Nov 4 04:20:40 XXXX kernel: [<f8879b70>] kjournald+0x0/0x1c2 [jbd]
Nov 4 04:20:40 XXXX kernel: [<c0435fb7>] kthread+0xc0/0xed
Nov 4 04:20:40 XXXX kernel: [<c0435ef7>] kthread+0x0/0xed
Nov 4 04:20:40 XXXX kernel: [<c0405c53>] kernel_thread_helper+0x7/0x10
Nov 4 04:20:40 XXXX kernel: =======================
Nov 4 04:20:42 XXXX kernel: mptbase: ioc0: LogInfo(0x31123000): Originator={PL}, Code={Abort}, SubCode(0x3000)
Nov 4 04:22:44 XXXX kernel: mptbase: ioc0: LogInfo(0x31123000): Originator={PL}, Code={Abort}, SubCode(0x3000)
Nov 4 04:22:45 XXXX kernel: mptbase: ioc0: LogInfo(0x31123000): Originator={PL}, Code={Abort}, SubCode(0x3000)
Nov 4 04:22:54 XXXX kernel: mptbase: ioc0: LogInfo(0x31123000): Originator={PL}, Code={Abort}, SubCode(0x3000)
Nov 4 04:23:20 XXXX kernel: mptbase: ioc0: LogInfo(0x31123000): Originator={PL}, Code={Abort}, SubCode(0x3000)
Nov 4 04:24:07 XXXX kernel: mptbase: ioc0: LogInfo(0x31123000): Originator={PL}, Code={Abort}, SubCode(0x3000)
Nov 4 04:24:42 XXXX kernel: sd 0:0:1:0: SCSI error: return code = 0x08000002
Nov 4 04:24:42 XXXX kernel: sdb: Current: sense key: Medium Error
Nov 4 04:24:42 XXXX kernel: Add. Sense: Unrecovered read error
Nov 4 04:24:42 XXXX kernel:
Nov 4 04:24:42 XXXX kernel: Info fld=0xc1850f3
Nov 4 04:24:42 XXXX kernel: end_request: I/O error, dev sdb, sector 202920179
Nov 4 04:24:42 XXXX kernel: EXT3-fs error (device sdb1): ext3_free_branches: Read failure, inode=12681431, block=25365014
Nov 4 04:24:42 XXXX kernel: Aborting journal on device sdb1.
Nov 4 04:24:42 XXXX kernel: EXT3-fs error (device sdb1) in ext3_reserve_inode_write: Journal has aborted
Nov 4 04:24:42 XXXX kernel: EXT3-fs error (device sdb1) in ext3_truncate: Journal has aborted
Nov 4 04:24:42 XXXX kernel: EXT3-fs error (device sdb1) in ext3_reserve_inode_write: Journal has aborted
Nov 4 04:24:42 XXXX kernel: EXT3-fs error (device sdb1) in ext3_orphan_del: Journal has aborted
Nov 4 04:24:42 XXXX kernel: EXT3-fs error (device sdb1) in ext3_reserve_inode_write: Journal has aborted
Nov 4 04:24:42 XXXX kernel: EXT3-fs error (device sdb1) in ext3_delete_inode: Journal has aborted
Nov 4 04:24:42 XXXX kernel: ext3_abort called.
Nov 4 04:24:42 XXXX kernel: ext3_abort called.
Nov 4 04:24:43 XXXX kernel: EXT3-fs error (device sdb1): ext3_journal_start_sb: Detected aborted journal
Nov 4 04:24:43 XXXX kernel: Remounting filesystem read-only
Nov 4 04:24:43 XXXX kernel: EXT3-fs error (device sdb1): ext3_journal_start_sb: Detected aborted journal
Nov 4 04:24:43 XXXX kernel: __journal_remove_journal_head: freeing b_committed_data
Nov 4 04:24:43 XXXX kernel: journal commit I/O error
Nov 4 04:29:52 XXXX kernel: __journal_remove_journal_head: freeing b_committed_data

Sera que é apenas um timeout mesmo? Ja segui um torial no wiki da loca web http://wiki.locaweb.com.br/pt-br/ERRO_-_Re...nly_file_system mas nao resolveu.

Entao hoje apos reboot sem montar o HD rodei fsck e corrigiu erros(ontem tabmem fiz isso) e hoje fiz o que pede na mensagem acima:

"echo 0 > /proc/sys/kernel/hung_task_timeout_secs" disables this message.

Sera que isso resolve? Vou ver la pelas 4hs, mas o que sera que pode ser isso? Esse server tem 1 ano ja e isso começou ha alguns dias apenas.

This post has been edited by Insert: 05 novembro 2010 - 12:36

0

#2 Membro offline   Juliano P 

  • Administrador
  • Grupo: Administradores
  • Posts: 228
  • Cadastrado: 08-novembro 08
  • Gender:Male

Posted 05 novembro 2010 - 10:54

Nao... nada a ver com controladora... é pau de kernel mesmo. Atualiza ele que deve acabar isso.
0

#3 Membro offline   Insert 

  • Esse é irmão!!
  • PipPipPipPipPipPip
  • Grupo: Membros
  • Posts: 336
  • Cadastrado: 11-setembro 09

Posted 05 novembro 2010 - 05:12

Atualizei o kernel ja mas nao resolveu.

2.6.18-194.17.4.el5 #1 SMP Mon Oct 25 15:51:07 EDT 2010 i686 i686 i386 GNU/Linux
0

#4 Membro offline   little_oak 

  • Se às mãos fazem errar -> yum remove hands -y
  • PipPipPipPipPipPipPip
  • Grupo: Membros
  • Posts: 1166
  • Cadastrado: 19-julho 07
  • Gender:Male
  • Interests:Gnu/Linux, Windows Server, PHP, Mysql, Postgres, Ajax, Flex e Café, soldat, Warcraft, Quake, Counter Strike, Cachorros, Surf e tomar muito, mas muito café!

Posted 05 novembro 2010 - 08:00

Só pra testes, usa o hdparm com -tT e o caminho do device para testar ele, usa tb o badblocks para analisar, se nada for condenado, uname -a e informa teu kernel.
Quanto de ram tem?
É 64 bits?
SELINUX tá on?
0

#5 Membro offline   Insert 

  • Esse é irmão!!
  • PipPipPipPipPipPip
  • Grupo: Membros
  • Posts: 336
  • Cadastrado: 11-setembro 09

Posted 05 novembro 2010 - 09:56

Ja mandei o kernel:
2.6.18-194.17.4.el5 #1 SMP Mon Oct 25 15:51:07 EDT 2010 i686 i686 i386 GNU/Linux

é CentOs 5.5 32 bits com 2Gb ram, Xeon Dual Core(Dell R200).

Hoje eu formatei ele e criei novamente a partição, nao sei se ira resolver e se resolver ate quando estara bem...

Segue os testes:

# hdparm -tT /dev/sdb

/dev/sdb:
Timing cached reads: 23488 MB in 2.00 seconds = 11768.35 MB/sec
Timing buffered disk reads: 320 MB in 3.01 seconds = 106.47 MB/sec

To rodando o bacblocks agora... quando terminar posto aqui.


0

#6 Membro offline   Insert 

  • Esse é irmão!!
  • PipPipPipPipPipPip
  • Grupo: Membros
  • Posts: 336
  • Cadastrado: 11-setembro 09

Posted 05 novembro 2010 - 11:10

rodei o comando badblocks mas ele nao deu nada(acho que travou ele).

Ai rodei o e2fsck -cy e parou aqui:
Checking for bad blocks (read-only test): 25306048/ 61034943

Note que no log de erro mostra o block bem proximo:

EXT3-fs error (device sdb1): ext3_free_branches: Read failure, inode=12681431, block=25365014

Enquanto executava, no /var/log/messages apareceu:

Nov 6 00:00:32 XXXX smartd[4234]: Device: /dev/sdb, 3 Currently unreadable (pending) sectors
Nov 6 00:00:32 XXXX smartd[4234]: Device: /dev/sdb, 3 Offline uncorrectable sectors

O que será que pode ser isso?
0

#7 Membro offline   little_oak 

  • Se às mãos fazem errar -> yum remove hands -y
  • PipPipPipPipPipPipPip
  • Grupo: Membros
  • Posts: 1166
  • Cadastrado: 19-julho 07
  • Gender:Male
  • Interests:Gnu/Linux, Windows Server, PHP, Mysql, Postgres, Ajax, Flex e Café, soldat, Warcraft, Quake, Counter Strike, Cachorros, Surf e tomar muito, mas muito café!

Posted 06 novembro 2010 - 09:31

MANDA TROCAR O DISCO PELO AMOR DE DEUS!
Isso vai te deixar na mão!
0

#8 Membro offline   Insert 

  • Esse é irmão!!
  • PipPipPipPipPipPip
  • Grupo: Membros
  • Posts: 336
  • Cadastrado: 11-setembro 09

Posted 06 novembro 2010 - 11:56

Mas como pode um HD novo dar problemas em 2 semanas?

Formatei ele e agora ta ok, vou aguardar mais um pouco.
0

#9 Membro offline   duranduran 

  • Esse é irmão!!
  • PipPipPipPipPipPip
  • Grupo: Membros
  • Posts: 341
  • Cadastrado: 23-fevereiro 07
  • Gender:Male
  • Location:Rio de Janeiro

Posted 07 novembro 2010 - 04:17

QUOTE(Insert @ Nov 7 2010, 12:56 AM) <{POST_SNAPBACK}>
Mas como pode um HD novo dar problemas em 2 semanas?

Formatei ele e agora ta ok, vou aguardar mais um pouco.


Tem certeza que é novo ? Se for mesmo pode ocorrer defeito de fábrica, mas duas vezes... é melhor vc não sair na rua em dia chuvoso...
0

#10 Membro offline   little_oak 

  • Se às mãos fazem errar -> yum remove hands -y
  • PipPipPipPipPipPipPip
  • Grupo: Membros
  • Posts: 1166
  • Cadastrado: 19-julho 07
  • Gender:Male
  • Interests:Gnu/Linux, Windows Server, PHP, Mysql, Postgres, Ajax, Flex e Café, soldat, Warcraft, Quake, Counter Strike, Cachorros, Surf e tomar muito, mas muito café!

Posted 07 novembro 2010 - 10:21

Euri mr Duran tongue.gif, fazia tempo que não via esse termo na chuva... lol, pior que é verdade (o ponto de espanto da segunda vez), isso é chato e raro, mas vou revelar agora.
Comprei (para um cliente) um dedicado com 16 cores, 12 gb de ram e 3 discos scsi (windows 2003 64bt), com 5 dias de uso, depois de muitas customizações o maquinário fantástico começou a travar sem parar. Foram checados: controladoras scsi, memórias, MB, fonte e tudo mais e nada foi encontrado, entretanto os travamentos aumentaram em quantidades assustadoras durante o dia.
Motivo? Chassi de porco!

Defeitos de fábrica eu já vi de perto uma desgraça com alto nível. Quando ainda era peão de uma empresa de TI (Na Paraíba) e vi um disco Samsung morrer (320gb) na minha cara, assim, do nada, coisa com 2 dias de uso.

Lamentavelmente lhe recomendo: Backups, notificações para clientes (caso seja seu helpdesk) e permuta urgente sad.gif

This post has been edited by little_oak: 07 novembro 2010 - 10:22

0

Share this topic:


Page 1 of 1
  • You cannot start a new topic
  • You cannot reply to this topic

1 User(s) are reading this topic
0 membro(s), 1 visitante(s), 0 membro(s) anônimo(s)