A medicina é hipnotizada pelo aprendizado estatístico da osteoartrite?

BD Horne et al escreveram um artigo importante Predição excepcional da mortalidade por escores de risco de testes laboratoriais comuns que aparentemente atraíram pouca atenção, talvez porque usassem tecnologia mais antiga: testes laboratoriais padrão e regressão logística. No entanto, mesmo colocando-se em significativa desvantagem preditiva ao colocar todos os valores laboratoriais contínuos em quintos, os autores conseguiram um índice c validado (AUROC) de 0,87 para prever a morte dentro de 30 dias em um ambulatório misto, ambulatório e departamento de emergência população de pacientes. Seu modelo também previu muito bem a mortalidade de 1y e 5y, e teve um bom desempenho em uma coorte totalmente independente do NHANES 1. Ele também teve um ótimo desempenho quando avaliado apenas em pacientes ambulatoriais, um grupo com mortalidade muito baixa.

O modelo acima, denominado pelo osteoartrite de joelho e 10 autores do Intermountain Risk Score, utilizou os seguintes fatores preditores: idade, sexo, hematócrito, hemoglobina, largura de distribuição de hemácias, volume corpuscular médio de raio x, contagem de hemácias, contagem de plaquetas , volume plaquetário médio, hemoglobina corpuscular média, concentração de hemoglobina corpuscular média, hemograma total, sódio, potássio, cloreto, bicarbonato, cálcio, glicose, creatinina e BUN 2. O modelo é objetivo, transparente e necessita apenas de uma única vez e não informação histórica. Ele não precisava do EHR (além de obter idade e sexo), mas usava o sistema de dados do laboratório clínico. Como os riscos previstos são alcançados é óbvio, ou seja, um médico pode facilmente ver quais fatores do paciente estavam contribuindo para o risco global de mortalidade. Os fatores preditivos são medidos em momentos óbvios. Pode-se ter certeza de que o modelo não usou informações que não deveriam, como o uso de certos tratamentos e procedimentos que podem criar uma espécie de circularidade com a morte. É importante notar, no entanto, que a variação interlaboratorial criou desafios na análise de dados laboratoriais sobre creme de artrite em vários sistemas de saúde.

Contraste a abordagem abaixo do hyped com aprendizado de máquina (ML). Considere o artigo de Avati et al. Melhorando os Cuidados Paliativos com Aprendizagem Profunda que foi publicado aqui. O artigo da Avati aborda uma área importante e está bem motivado. Cuidados paliativos (por exemplo, hospício) são frequentemente procurados no momento errado e dependem de referências médicas individuais. Um método de triagem automática pode gerar uma lista de pacientes candidatos próximos ao final da vida, que devem ser avaliados por um médico quanto à possibilidade de recomendar cuidados paliativos em vez de curativos. Um método projetado para rastrear esses pacientes precisa ser capaz de estimar com precisão o risco de mortalidade ou a expectativa de vida.

A análise de Avati et al utilizou um ano de dados prévios sobre cada paciente e foi baseada em 13.654 características candidatas do EHR. Como em qualquer estudo retrospectivo não baseado em uma coorte de iniciação com um “tempo zero” bem definido, é complicado definir um tempo zero e um tanto fácil de ter viés de sobrevivência e outros vieses de amostragem entrarem sorrateiramente na análise. O algoritmo ML, para usar um resultado binário, exigia a divisão dos pacientes em casos “positivos” e “negativos”, algo não exigido por modelos de regressão para o tempo até um evento 3. Os casos “positivos” devem ter pelo menos 12 meses de duração. dados anteriores no sistema de saúde, eliminando pacientes que morreram rapidamente. Casos “negativos” devem ter sido sintomas de artrite nas mãos e punhos vivos por pelo menos 12 meses a partir da data prevista. Também não está claro como os tempos variáveis ​​de censura foram tratados. No modelo estatístico padrão, os pacientes que entram no sistema pouco antes da análise de dados têm um acompanhamento curto e são censurados à direita precocemente, mas ainda assim contribuem com algumas informações.

Avati et al utilizaram o aprendizado profundo nas 13.654 características para obter um índice c validado de 0,93. Para o crédito dos autores, eles construíram uma curva de calibração imparcial, embora usassem binning e tivessem uma resolução muito baixa. Como muitas aplicações de ML, onde poucos princípios estatísticos são incorporados ao algoritmo, o resultado é uma falha em fazer previsões precisas na escala de risco absoluto. A curva de calibração está longe da linha de identidade mostrada abaixo.

Os autores interpretaram a figura acima como “razoavelmente calibrada”. Não é. Por exemplo, um paciente com remissão da artrite reumatóide sem medicação, uma probabilidade prevista de 0,2, tinha um risco real < 0,1. O ganho no índice c do ML em relação a abordagens mais simples foi mais do que compensado pela pior precisão de calibração do que as outras abordagens alcançadas.

É importante ressaltar que parte do hype sobre ML vem de revistas e sociedades profissionais e não tanto dos próprios pesquisadores. Esse é o caso do algoritmo de aprendizado profundo de Avati et al, que não está sendo realmente usado no modo de produção em Stanford. Um algoritmo muito melhor calibrado e um pouco mais baseado em estatística está sendo usado atualmente.

Como muitos algoritmos ML, o foco está no desenvolvimento de “classificadores”. Como detalhado aqui, os classificadores estão longe de ser ótimos no suporte a decisões médicas, onde as decisões não devem ser tomadas em um documento, mas apenas quando as utilidades / custos forem conhecidos. Utilidades e custos só se tornam conhecidos durante a interação médico / paciente. Diferentemente dos modelos estatísticos que estimam diretamente o risco ou a expectativa de vida, a maioria dos algoritmos de ML começa com a classificação, então se for necessária uma probabilidade magnética, eles tentam converter os padrões em uma probabilidade (isso às vezes é chamado de “máquina de probabilidade”). ”). Conforme julgado pelo gráfico de calibração de Avati et al, essa conversão pode não ser confiável.

Avati et al, além de nos mostrar o que é necessário, e consistente com a predição forward (o gráfico de calibração) também relatou várias medidas problemáticas. Como detalhado aqui, o uso de regras de pontuação de probabilidades de probabilidade impróprias é muito comum no mundo ML, por causa da esperança de que alguém possa realmente tomar uma decisão (classificação) usando os dados sem precisar incorporar custos de decisões incorretas (utilidades). Índices de precisão impróprios têm vários problemas, como

A classificação classificada corretamente, a sensibilidade, a especificidade, a precisão e a recordação são regras de pontuação de precisão impróprias e não devem desempenhar um papel em um modo de previsão avançada quando a estimativa de risco ou expectativa de vida é a meta real. Um jogador de pôquer vence de forma consistente porque ela é capaz de estimar a probabilidade de que ela acabará vencendo com sua mão atual, não porque ela se lembra da osteoartrite generalizada 10 quantas vezes ela teve uma mão quando venceu.

Um ponto adicional: o algoritmo de aprendizado profundo do ML é uma caixa preta, não fornecida por Avati et al, e aparentemente não utilizável por outros. E o algoritmo é tão complexo (especialmente com seu uso extremo de códigos de procedimento) que não se pode ter certeza de que ele não usou proxies para cobertura de seguro privado, levantando uma possível sinalética de ética. Em geral, qualquer viés existente no sistema de saúde pode ser representado por sintomas de artrite na parte inferior das costas e quadris no EHR, e um algoritmo ML de EHR tem a chance de perpetuar esse viés em futuras decisões médicas. Em uma nota separada, eu preferiria usar índices abrangentes de comorbidade e medidas de severidade da doença além de fazer uma exploração em liberdade dos códigos ICD-9.

Também pode ser útil contrastar a abordagem ML com outra abordagem estatística tradicional e transparente cuidadosamente projetada, usada no estudo HELP de JM Teno, FE Harrell et al. Um modelo de sobrevivência paramétrica validado foi transformado em um nomograma fácil de usar para obter uma variedade de previsões em adultos idosos hospitalizados:

Nomograma para obter probabilidades de sobrevivência previstas de 1 e 2 anos e percentis 10, 25, 50, 75 e 90 do tempo de sobrevivência (em meses) para doentes individuais em HELP. Abreviaturas de classe de doença: a = ARF / MOSF / Coma, b = todos os outros, c = CHF, d = Câncer, e = Ortopédico. Para usar o nomograma, coloque uma régua verticalmente de tal forma que a artrose do joelho esquerdo icd 10 toque o valor apropriado no eixo para cada preditor. Leia onde a régua cruza o eixo ‘Pontos’ no topo do diagrama. Faça isso para cada preditor, fazendo uma listagem dos pontos. Some todos esses pontos e localize esse valor no eixo ‘Total de pontos’ com uma régua vertical. Siga a régua para baixo e leia qualquer um dos valores de interesse previstos. APS é o escore de fisiologia aguda APACHE III.

Na pressa de usar bancos de dados ML e EHR de grande porte para acelerar o aprendizado dos dados, os pesquisadores muitas vezes esquecem as vantagens dos modelos estatísticos e de usar dados mais compactos, mais limpos e melhor definidos. Às vezes, eles também esquecem como medir a precisão preditiva absoluta ou que os utilitários devem ser incorporados para tomar decisões ideais. Utilitários são aplicados aos riscos previstos; classificadores estão em desacordo com a tomada de decisão ideal e com ioga para artrite nas mãos incorporando utilitários no momento apropriado, que geralmente é no último minuto, pouco antes da decisão médica é feita e não quando um classificador está sendo construído.

• Excelente discussão de overfitting, precisão de medição e falta de rigor em estudos de aprendizado de máquina publicados em previsões de séries temporais financeiras. Métodos estatísticos simples superaram os complexos algoritmos de aprendizado de máquina. Pesquisadores anteriores se recusaram a compartilhar dados.