Aws testa as águas com servidores de braço caseiro é artrite tratável

A maior novidade é a novidade: inventar a conferência 2018 em sua cidade natal seattle é o processador caseiro de servidores “graviton” que sua divisão annapurna labs, que adquiriu em 2015 por US $ 350 milhões, preparou até hospedar instâncias de computação virtual EC2 além das instâncias intel xeon e AMD epyc que a AWS já executa.

O fato de a AWS ter criado seu próprio chip servidor em vez de implantar o chip thunderx2 da Marvell (antigamente cavium), que é o atual líder em servidores de braço nos dias de hoje, depois que a QUALCOMM abandonou o Centriq 2400 e aplicou micro antes de seu X O dinheiro foi comprado pela ampere (uma nova empresa financiada pela empresa de capital privado Carlyle Group), é significativo.

Mas isso não significa que chips de braço de maravilhoso e ampère – e possivelmente algum dia fujitsu com o processador A64FX de 48 núcleos, com sudorese de vetor, se ele desejar ansiosamente algum grande processamento paralelo de ponto flutuante e talvez novas entradas no braço dobrar – não vai, eventualmente, jogar na nuvem pública da AWS.

Da maneira como vemos, a AWS já estava trabalhando em sua família “alpina” de chips de braço dual-core e quad-core dentro de laboratórios annapurna para criar smartnics para sua frota de servidores. Esses smartnics são parte integrante dessa frota de servidores, descarregando praticamente todas as funções, exceto o sistema operacional e os aplicativos dos processadores xeon, epyc e agora graviton nas instâncias do EC2, de modo que os núcleos de computação nessas instâncias estejam amplamente disponíveis para executar aplicativos. (isso é chamado de sistema nitro, e nós exploraremos isso separadamente em um artigo futuro.)

Já dissemos isso antes, e nós diremos novamente: os principais superalcanadores e construtores de nuvem estão vivendo no futuro inteligente que os centros de HPC podem apreciar, já que o infiniband networking também tem um modelo offload com nics inteligentes que podem ser transformados no que mellanox A tecnologia chama meio de brincadeira – mas apenas metade – geniusnics, e que as empresas acabarão ficando para trás pela mesma razão que os hyperscalers e centros HPC freqüentemente adotam o descarregamento: o núcleo de computação é caro, e o offload compute, relativamente falando, não.

Os laboratórios da Amazon e Annapurna não disseram muito sobre a família alpina de chips desde sua estréia inicial em janeiro de 2016, quando revelaram designs de armv7 de 32 bits e armv8 de 64 bits e disseram que eles tinham “desempenho e recursos de classe empresarial”. como suporte para memória DDR4 e 2 MB de cache L2 em seus dados. Aqui está uma lista compilada para os chips alpinos do annapurna usados ​​em dispositivos de rede (roteadores domésticos e switches Ethernet básicos), bem como em dispositivos de armazenamento. Existem dispositivos dual-core e quad-core de 32 bits baseados nos núcleos Cortex-A15 dos suportes de braço que funcionam a 1,4 GHz para o chip dual-core e a 1,7 GHz para o chip quad-core, além de um quad-core. com base no design de córtex-A57 que também é executado em 1,7 ghz. Esses núcleos de córtex de braço usam tubulações superescalares e execução fora de ordem, mas não possuem hyperthreading.

Não há nada particularmente impressionante sobre esses feeds e velocidades, e não podemos falar muito sobre a arquitetura já que a Amazon não disse quase nada, mas o que presumimos é impressionante é como esses dispositivos são baratos para a Amazon e quanto servidor computação de offload que eles podem fazer para tornar os servidores, redes e armazenamento globais na AWS mais eficientes. Essa é certamente a estratégia que a mellanox está adotando com os processadores bluefield multicore arm, que a microsoft está usando com fpgas como aceleradores de rede e mecanismos de computação nos servidores da nuvem pública azure, e a netronome está vendendo seus adaptadores de rede agilio. Peter desantis, vice-presidente de infraestrutura global da AWS e suporte ao cliente, apresentando o processo de servidor de braços graviton em re: invent 2018.

Embora não saibamos muito sobre o chip graviton, ele parece ser um processador muito mais substancial, algo semelhante ao xeon-D-2100 v2 da Intel, que tem de 8 a 18 núcleos rodando entre 1.6 ghz e 2,3 ghz. (quanto maior a contagem de núcleos, menor a velocidade do clock, como de costume.) Se você pesquisar o site da AWS, descobrirá uma linha que diz que os gravitons são baseados nos núcleos neurais de 64 bits, o que quase certamente significa os núcleos “cosmos” são específicos, que consistem em versões ajustadas dos projetos cortex-A72 ou cortex-A75 do braço e que devem ser implementados em processos de fabricação de chips de 16 nanômetros, e isso provavelmente significa que o corp de fabricação de semicondutores de taiwan é a fundição de escolha aqui. Arme, você deve se lembrar, lançou a renovação e rebranding neodesse dos chips de data center lançados em outubro, colocando-os em uma cadência anual com melhorias de desempenho de 30% por ano e marchando pelo caminho de 7 nanômetros para 5 nanômetros entre agora e 2021.

Todos os AWS disseram publicamente sobre o processador gravitacional que conhecemos da instância EC2 A1, que suporta até 16 CPUs virtuais (vcpus) e até 32 GB de memória principal, com até 10 gb / s de largura de banda de rede saindo de sua adaptador de servidor e até 3,5 gb / s de largura de banda de armazenamento de bloco elástico (EBS). A AWS não confirmou qual cosmo core estava usando quando pressionamos para obter mais detalhes, e não confirmou que o graviton tinha 16 núcleos sem multithreading simultâneo para apresentar vários threads virtuais por núcleo. (este suporte SMT é frequentemente adicionado por arm licenciados e ainda não faz parte da licença base principal do braço. Isso pode mudar com os núcleos “ares” que vencem em 2019.) A AWS confirmou para a próxima plataforma que essas instâncias A1 têm chips gravitacionais que operam a 2,3 ghz. Em termos de computação de números inteiros, os grávitons devem ser capazes de se manterem contra os xeon-ds e talvez com o extremo mais baixo dos xeon sps.

Isso não é muita memória e não presumimos muita largura de banda de memória, especialmente se houver apenas um controlador de memória e dois canais, como suspeitamos. O xeon D-2100 v2 tem dois controladores de memória e quatro canais de memória, chegando a 512 GB com cartões de memória extremamente caros de 128 GB, mas mesmo usando bastões baratos de 8 GB, ele pode atingir facilmente 32 GB. É possível que o annapurna tenha colocado muitos controladores de memória em seu chip, o que também presumimos que não suporta multithreading simultâneo e, portanto, esperamos que ele tenha 16 núcleos no chip. Um bom equilíbrio seria um controlador de memória para cada oito núcleos, mas talvez até quatro controladores de memória fossem melhores se você quisesse recuperar a capacidade de computação e a largura de banda da memória. (A AWS não estava se gabando disso, então suspeitamos que não tenha feito isso.)

As instâncias A1 executam o amazon linux 2, o linux interno que evoluiu do linux corporativo red hat e seu clone centos; eles também podem rodar servidores RHEL e ubuntu reais, e outros sistemas operacionais – não seria engraçado se o Windows Server fosse portado para o chip do servidor do braço da AWS? – vindo no futuro. As instâncias do EC2 A1 com base no braço estão disponíveis agora nas regiões leste dos EUA, leste dos EUA, oeste e europa (irlanda) na distribuição usual de tipos de assinatura de instância de host sob demanda, reservada, específica, dedicada e dedicada. A AWS alerta que essas instâncias A1 são realmente planejadas para cargas de trabalho escaláveis ​​que não são particularmente vinculadas à largura de banda da memória, como servidores da Web, ambientes de desenvolvimento, servidores de armazenamento em cache ou microsserviços em contêiner que não sejam muito pesados ​​e presumivelmente muito informativos também. A AWS diz que essas instâncias podem ser até 45% mais baratas para serem executadas que as instâncias X86 equivalentes no EC2, mas não está claro o que a AWS está comparando lá.

Além das instâncias A1 baseadas no uso de armas, a AWS ativou algumas outras variações de infraestrutura no tema do EC2. As novas instâncias do c5n oferecem rede ethernet de 100 gb / s entre elas, o que as torna adequadas para simulação e modelagem HPC dependentes de largura de banda, treinamento de aprendizado de máquina e cargas de trabalho intensivas de análise de dados. Como as instâncias C5 e c5d, essas instâncias do c5n são baseadas em um nó de servidor de dois soquetes que tem processadores “skylake” xeon SP 8000 de platina série, e parece que eles têm 18 núcleos por chip rodando a 3 ghz.

Além da largura de banda extra, as instâncias c5n têm por vezes tantas filas de dados quanto as instâncias C5 e c5d – 32 filas versus 8 filas na interface de rede elástica (que é implementada nos processadores annapurna labs instalados ao lado da NIC para fazer é inteligente – o que ajuda a distribuir melhor os dados que entram nos adaptadores de rede entre os núcleos da caixa.Essa largura de banda está disponível na mesma região (em uma zona de disponibilidade ou em várias zonas da região) e pode ser usada para agrupe as instâncias do EC2, bem como vinculá-las ao armazenamento de objeto do S3 ou serviços como o mapreduce flexível, serviço de banco de dados relacional ou elasticache.As instâncias c5n estão disponíveis nas mesmas regiões que as instâncias A1, mais a nuvem privada govcloud para os EUA governo.

Por fim, a AWS está trazendo rede ethernet de 100 gb / s para as instâncias aceleradas por GPU P3 lançadas em outubro passado e que atingiram os links de servidor de 25 gb / s para a rede da AWS. Essas instâncias do p3dn com rede mais rápida estarão disponíveis na próxima semana e também terão aceleradores de GPU tesla V100 “volta” que têm 32 GB de memória HBM2, em oposição aos 16 GB que foram incluídos nas voltas originais e usados ​​nas instâncias originais do P3 . Essas instâncias são baseadas em um par de processadores xeon SP de 24 núcleos personalizados e têm até oito gpus no chassi.