Cumulus netq – cumulus netq 1.4.0 – imagens de artrite em dedos

O Cumulus® netq é um conjunto de ferramentas de operações de rede que fornece informações acionáveis ​​e inteligência operacional sobre a integridade de todo o datacenter baseado em Linux – do contêiner, da máquina virtual ou do host até o switch e a porta. Trabalhando lado a lado com o cumulus linux, o netq permite que as organizações validem o estado da rede, tanto durante operações regulares quanto para análise de diagnóstico post-mortem. Funcionando com switches cumulus linux e outros sistemas certificados – como ubuntu®, red hat® e hosts centos – o netq captura dados de rede e outras informações de estado em tempo real, fornecendo aos arquitetos de nuvem e às equipes de operações de rede a capacidade de operar com visibilidade toda a rede.

Ele é integrado aos orquestradores de contêineres e à interface de netlink para que isso aconteça. Com o netq, as operações de rede mudam de uma abordagem manual, reativa, caixa-a-caixa, para uma abordagem automatizada, informada e ágil.

• validação preventiva: o netq valida facilmente possíveis alterações de configuração de rede em um ambiente virtualizado ou laboratório usando algoritmos de verificação, exibição e rastreamento. O NetQ elimina a necessidade de verificar interruptores ou servidores, um a um, e pode reduzir os erros manuais antes que sejam colocados em produção (uma das principais causas de inatividade da rede).

O NetQ também oferece gerenciamento de imagem e provisionamento (IPM), o que torna possível colocar seus novos switches cumulus linux em funcionamento rapidamente, fornecendo recursos de bootstrapping e de gerenciamento do ciclo de vida, incluindo gerenciamento de imagens e configurações ZTP. O IPM contém serviços locais de armazenamento e distribuição para o sistema operacional da rede cumulus linux (NOS) e scripts de provisionamento usados ​​para implantar e atualizar o cumulus linux e o netq. Com o IPM, a implantação de rede muda de um tedioso processo de instalação caixa-a-caixa para um processo consistente e previsível. Conteúdo

O diagrama mostra as conexões físicas (na forma de linhas cinzas) entre a coluna 01 e quatro dispositivos de folha e dois dispositivos de saída, e a coluna 02 e os mesmos dispositivos de quatro folhas e dois dispositivos de saída. A folha 01 e a folha 02 são conectadas umas às outras através de um peerlink e atuam como um par MLAG para o servidor 01 e servidor 02. A folha 03 e a folha 04 são conectadas umas às outras através de um peerlink e atuam como um par MLAG para servidor 03 e servidor 04. A borda está conectada a ambos os dispositivos de saída e o nó da internet está conectado à saída 01.

Embora não seja o método de implantação preferido, você pode optar por implementar o netq em sua rede de dados. Nesse cenário, não há sobreposição e todo o tráfego para e dos agentes netq e o servidor de telemetria percorre os caminhos de dados junto com seu tráfego de rede regular. As funções dos switches na rede CLOS são as mesmas, exceto que o servidor de telemetria executa a função de agregação que o switch de gerenciamento OOB executou. Se a sua rede ficar inativa, talvez você não tenha acesso ao servidor de telemetria para solucionar problemas.

O NetQ suporta uma implantação de alta disponibilidade para usuários que preferem uma solução na qual os dados e o processamento coletados fornecidos pelo servidor de telemetria permanecem disponíveis por meio de equipamentos alternativos, caso o TS falhe por qualquer motivo. Nesta configuração, três tss são implantados, com um como mestre e dois como réplicas. Os dados dos agentes netq são enviados a todos os três comutadores para que, se o principal TS falhar, uma das réplicas se torne automaticamente o principal e continue armazenando e fornecendo os dados de telemetria. Este exemplo é baseado em uma configuração de gerenciamento OOB e modificado para suportar alta disponibilidade para netq.

O agente netq pesquisa o espaço do usuário para obter informações sobre o desempenho dos vários protocolos e serviços de roteamento que estão sendo executados no comutador. As redes Cumulus oferecem suporte a protocolos FRR (free range routing) BGP e OSPF, além de endereçamento estático. O Cumulus Linux também suporta LLDP e MSTP, entre outros protocolos, e uma variedade de serviços, como systemd e sensores. Para hosts, o agente netq também pesquisa o desempenho de contêineres gerenciados com orquestradores do docker ou do kubernetes. Todas essas informações são usadas para fornecer a integridade atual da rede e verificar se estão configuradas e operando corretamente.

Por exemplo, se o agente netq descobre que uma interface foi desativada, um novo vizinho BGP foi configurado ou um contêiner foi movido, ele fornece essa informação para o TS. Essa informação pode então ser usada para notificar os usuários sobre a mudança do estado operacional através de vários canais. Por padrão, os dados são registrados no netq e visíveis no rsyslog, mas você pode configurar o componente notificador no netq para enviar as informações para um aplicativo de notificação de terceiros também. O NetQ suporta integrações ELK / logstash, pagerduty, slack e splunk.

O agente netq interage com as comunicações do netlink entre o kernel do Linux e o espaço do usuário, escutando mudanças no estado da rede, configurações, rotas e endereços MAC. O NetQ usa essas informações para permitir notificações sobre essas alterações, para que os operadores de rede e os administradores possam responder rapidamente quando as mudanças não são esperadas ou favoráveis.

O agente netq também interage com a plataforma de hardware para obter informações de desempenho sobre vários componentes físicos, como ventiladores e fontes de alimentação, no switch. Os estados operacionais e as temperaturas são medidos e reportados, juntamente com as informações de cabeamento para permitir o gerenciamento do hardware e do cabeamento e a manutenção proativa.

O netq CLI permite a validação da integridade da sua rede através de três conjuntos principais de comandos. Eles extraem as informações do mecanismo de análise, do mecanismo de rastreamento e do notificador. O mecanismo de análise está validando continuamente a conectividade e a configuração dos dispositivos e protocolos em execução na rede. A utilização dos comandos check e show exibe o status dos vários componentes e serviços em uma base de pilha de software completa em toda a rede. Por exemplo, você pode executar uma verificação em toda a rede no BGP com um único comando netq check bgp. O comando lista todos os dispositivos com configurações incorretas ou outros erros operacionais em segundos. Quando erros ou configurações incorretas estão presentes, o comando netq show bgp exibe a configuração do BGP em cada dispositivo para que você possa comparar e contrastar cada dispositivo, procurando por possíveis causas. Os comandos Verificar e mostrar estão disponíveis para vários componentes e serviços, conforme mostrado na tabela a seguir.

Todos os comandos check, show e trace podem ser executados para o status atual e para um ponto anterior no tempo. Por exemplo, isso é útil quando você recebe mensagens da noite anterior, mas não está vendo nenhum problema agora. Você pode usar o comando netq check para procurar problemas de configuração ou operacionais no momento em que as mensagens são marcadas com registro de data e hora. Em seguida, use os comandos netq show para ver informações sobre como os dispositivos em questão foram configurados naquele momento ou se houve alguma alteração em um determinado período de tempo. Opcionalmente, você pode usar o comando netq trace para ver como ficou a conectividade entre qualquer nó problemático naquele momento. Este exemplo mostra problemas ocorridos em spine01, leaf04 e server03 na noite passada. O administrador da rede recebeu notificações e quer investigar. O diagrama é seguido pelos comandos a serem executados para determinar a causa de um erro de BGP no spine01. Observe que os comandos usam a opção around para ver os resultados da última noite e que podem ser executados a partir de qualquer switch na rede.

O notificador netq gerencia os eventos que ocorrem para os dispositivos e componentes, protocolos e serviços que ele recebe dos agentes netq. O notificador permite capturar e filtrar eventos que ocorrem para gerenciar o comportamento de sua rede. Isso é especialmente útil quando uma interface ou protocolo de roteamento fica inativo e você deseja colocá-los de volta em funcionamento o mais rápido possível, de preferência antes que alguém perceba ou reclame. Você pode melhorar significativamente o tempo de resolução criando filtros que se concentram em tópicos apropriados para um determinado grupo de usuários. Você pode facilmente criar filtros em torno de eventos relacionados a estados de sessão BGP, LNV e MLAG, interfaces, links, NTP e outros serviços, ventiladores, fontes de alimentação e medições de sensores físicos.

Todo evento ou entrada no banco de dados netq é armazenado com um timestamp de quando o evento foi capturado pelo agente netq no comutador ou servidor. Esse registro de data e hora é baseado no comutador ou na hora do servidor em que o agente netq está em execução e é enviado no formato UTC. É importante garantir que todos os dispositivos sejam sincronizados com o NTP para impedir que os eventos sejam exibidos fora de ordem ou não sejam exibidos quando procurar eventos que ocorreram em um determinado momento ou em uma janela de tempo.

O estado da interface, endereços IP, rotas, entradas da tabela ARP / ND (vizinho IP) e entradas da tabela MAC carregam um registro de data e hora que representa a hora em que o evento aconteceu (como quando uma rota é excluída ou uma interface aparece) – exceto a primeira vez o agente netq é executado. Se a rede estiver em execução e estável quando um agente netq for ativado pela primeira vez, esse tempo será refletido quando o agente foi iniciado. Alterações subseqüentes a esses objetos são capturadas com um tempo exato de quando o evento aconteceu.

Os dados que são capturados e salvos com base na pesquisa e praticamente todos os outros dados no banco de dados netq, incluindo o estado do plano de controle (como BGP ou MLAG), possuem um registro de data e hora de quando as informações foram capturadas, embora netq compense isso se os dados extraídos fornecerem informações adicionais para computar uma hora mais precisa do evento. Por exemplo, o tempo de atividade do BGP pode ser usado para determinar quando o evento realmente aconteceu em conjunto com o registro de data e hora.

Ao recuperar o registro de data e hora, a saída JSON sempre retorna o tempo em microssegundos que passaram desde o horário da época (1º de janeiro de 1970 às 00:00:00 GMT). Saída não JSON mostra até que ponto o evento ocorreu no passado. Quanto mais próximo o evento estiver do presente, mais granular será o tempo mostrado. Por exemplo, se um evento aconteceu há menos de uma hora, o netq exibe as informações com um registro de data e hora com microssegundos de granularidade. No entanto, quanto mais longe você estiver do evento, essa granularidade será mais grosseira. Este exemplo mostra registros de data e hora com granularidade de tempo diferente.

O servidor DHCP usa o protocolo de configuração de host dinâmico para atribuir dinamicamente endereços IP a dispositivos de rede e fornecer um caminho padrão (URL HTTP) para imagens ONIE e scripts ZTP. Você pode optar por usar o servidor incorporado para todos os seus serviços DHCP ou integrar-se com o seu. Para mais detalhes sobre como o DHCP funciona, consulte o padrão RFC 2131. Gerente de instalação de rede

O gerenciador de instalação de rede usa o ONIE (ambiente de instalação de rede aberta) para armazenar e distribuir imagens do sistema operacional de rede (NOS). O ONIE combina um gerenciador de inicialização e um pequeno sistema operacional para comutadores de rede que fornece um ambiente para provisionamento automatizado. O ONIE utiliza o complexo da CPU do switch, incluindo o CPU soc, DRAM, boot flash e armazenamento em massa, e cria um ambiente para instalação. Na inicialização de um servidor, o ONIE configura a interface de gerenciamento de rede e localiza e executa o programa de instalação do sistema operacional de redes cumulus. Para mais detalhes sobre o padrão ONIE, consulte o ONIE. Gerenciador de provisionamento

O gerenciador de provisionamento usa o ZTP (zero touch provisioning) para armazenar e distribuir scripts de provisionamento. O ZTP fornece uma estrutura de provisionamento que permite que um script único fornecido pelo usuário seja executado. Na primeira inicialização de um comutador cumulus linux, o IPM usa um script padrão, ztp-default.Sh, fornecido por meio do servidor DHCP, para executar tarefas de provisionamento, como instalação de licença, teste de conectividade e especificação de um nome de host. Você pode criar seu próprio script ZTP para ser usado, armazenando-o em um local designado. Para mais detalhes sobre como o ZTP funciona e dicas para escrever seus próprios scripts, consulte ZTP. Interface da Linha de comando

O IPM instala e provisiona servidores bare-metal para transformá-los rapidamente em switches cumulus linux. Na inicialização inicial de um comutador de caixa branca, o IPM carrega automaticamente o comutador com o sistema operacional cumulus linux e o provisiona com as informações de rede necessárias para torná-lo um nó de rede funcional, incluindo um endereço IP. Esta figura mostra as interações dos vários componentes do IPM com o hardware do switch durante uma atualização inicial. O servidor DHCP escuta a porta 67 para mensagens do cliente DHCP e envia mensagens para a porta 68 do cliente. O serviço de tráfego de dicas usa a porta 9300 no servidor de telemetria para solicitações. Objetos mostrados em roxo são componentes do IPM.