10 Perguntas difíceis para a entrevista do gerente de incidentes (exemplos de respostas): artrite reumatóide aumenta a febre

Você está gerenciando um incidente que já dura mais de duas horas e agora as coisas estão começando a esquentar. Você tem o administrador de rede verificando um possível problema de comutação, um especialista em DC verificando a conexão física em um host esxi que parece estar tendo problemas de conexão de rede que estão impactando 15 vms. E infelizmente, 2 dos vms hospedados são sistemas-chave para separar aplicativos críticos que ainda não são redundantes. Se isso não for suficiente de uma vez, enquanto tudo isso está acontecendo, você está recebendo mensagens de texto do chefe que querem atualizações de status.

No mundo de hoje, a maioria dos ambientes está usando a virtualização para hospedar seus servidores e aplicativos. Muitas operações também estão usando o serviço de nuvem, como o AWS e o google for iaas.

Isso cria um novo desafio para entender a topologia de infraestrutura para servidores virtuais. Mas não é só isso novo; Algumas operações adicionaram containers docker e paas a um mundo já complexo.

Se você já trabalhou com a equipe de TI por algum tempo, talvez tenha percebido nosso nível de paixão e propriedade. Agora imagine que você é o novo gerente de incidentes na chamada, que precisa trabalhar até o fim de cada pilha de tecnologia até encontrar o problema. Você está trabalhando com um grupo diversificado de personalidades que inclui administradores e engenheiros das equipes de data center, rede, servidor, banco de dados e aplicativos; todos querendo provar que isso não é problema deles. E, em alguns casos individuais, você pode ter alguns gerentes, diretores e parceiros de negócios na chamada.

Você acabou de passar a noite toda em uma chamada em ponte para solucionar um problema de aplicativo que poderia ter sido resolvido em dez minutos se o administrador certo tivesse ingressado na chamada. Mas, infelizmente, eles não fizeram, e o que você teve que trabalhar foi o administrador júnior que estava de plantão. É uma coisa boa que você é técnico, porque, no final, você teve que fazer login no servidor Windows e corrigir o problema sozinho.

• O helpdesk está recebendo chamadas sobre vários aplicativos indisponíveis. Você suspeita que é um problema de rede e decide trazer um administrador de rede para a ponte. Depois de alguns minutos, ela informa que a rede está bem. Após uma investigação mais profunda, você aciona um administrador de armazenamento na chamada que encontra uma das principais unidades NAS com falha no controlador secundário, mas o processo não falhou completamente. Depois de um take-over forçado, o armazenamento está novamente online.

• há uma grande tempestade de chuva acontecendo e você recebe uma ligação dizendo que a água da chuva inundou o data center e danificou seus principais comutadores centrais. A rede corporativa ficou offline. Após uma avaliação rápida, você obtém a equipe da rede e do data center trabalhando para transferir o tráfego para o site secundário. Isso requer um esforço coordenado em vários sites. Esta ponte dura horas enquanto o equipamento é reconfigurado – o teste é concluído e o tráfego está em movimento novamente, mas a equipe trabalha toda a noite.

• houve um acidente e uma equipe de construção cortou uma linha de energia que alimenta a energia principal do seu data center. Agora, milhares de servidores estão sendo executados em energia de backup. Você avalia o problema e faz com que a equipe do seu data center verifique o combustível nos geradores de backup enquanto a empresa de energia repara o circuito. A chamada de ponte permanece aberta e você continua atualizando os vips.