Categorias
Data Science Estatística

Regressão logística na epidemiologia (e medicina): o nascimento!

Bem, essa é apenas uma breve notinha histórica sobre o “nascimento” da regressão logística em estudos epidemiológicos na medicina. A história foi a seguinte:

Em 1948, o National Heart Institute (USA) iniciou um grande estudo epidemiológico sobre doenças cardiovasculares chamado “The Framingham Heart Study“. Ele foi delineado basicamente como um grande estudo de coorte na qual mais de 5 mil pessoas moradoras da cidade de Framingham, Massachusetts, foram examinadas e acompanhadas durante anos (o estudo ainda está em atividade!).

Em 1971, a segunda geração de pessoas (os filhos e esposas dos participantes originais) foi incluída (mais umas 5 mil pessoas) e, em 2002, a terceira geração de pessoas foi incluída.

Desnecessário dizer que esse estudo é o sonho de qualquer epidemiologista: poder acompanhar uma população inteira, durante anos, tendo avaliado previamente todos os fatores de risco e verificando o que ocorreu. Aliás, duvido que exista algum médico que nunca, pelo menos, ouviu falar do estudo de Framingham (até porque, desde seu início, mais de 3.500 artigos científicos já foram publicados em diversos periódicos da área da saúde). Os cardiologistas (e os epidemiologistas) têm a obrigação de conhecer Framingham!

E o que o estudo de Framingham tem com a regressão logística?

As técnicas de regressão logística já eram conhecidas mas ainda pouco utilizadas em pesquisas científicas, principalmente na área da saúde. Afinal, realizar os cálculos de regressão logística multivariada, na década de 1940, não deveria ser muito fácil mesmo.

Isso mudou em 1967 quando Truett, Cornfield e Kannel publicaram um artigo no “The Journal of Chronic Diseases” intitulado: “A multivariate analysis of the risk of coronary heart disease in Framingham“. O que esses pesquisadores queriam saber? Determinar quais fatores de risco estavam relacionados com desenvolvimento de doença coronária, ou seja, a pergunta deles era: “isso aqui causa problema coronário no futuro?”

Você obviamente já percebeu que o desfecho era medido como “sim” (presença de doença coronária) ou “não” (ausência de doença coronária). E qual técnica de regressão é indicada nesses casos? A regressão logística! Foi esse estudo mostrou ao mundo o potencial da regressão logística na análise de regressão de desfechos dicotômicos.

Foi a partir desse estudo marco que o uso da regressão logística tornou-se o método padrão para a análise de regressão de dados dicotômicos, especialmente na área da saúde” (David Hosmer, Stanley Lemeshow: Applied Logistic Regression, 1989).

E assim, em 1967, a regressão logística “nasceu de fato” para a epidemiologia e medicina (e muitas outras áreas também).

A primeira página do artigo de Truett, Cornfield e Kannel está disponível na internet e é reproduzida abaixo (o artigo original pode ser adquirido em sites especializados de artigos científicos por cerca de 35 dólares). Desafio extra: você reconhece algumas das equações mostradas na página abaixo?

Para aprender na prática sobre regressão logística recomendo o livro de David G. Kleinbaum, para estudo individual: “Logistic Regression: A Self-Learning Text“. O link direto para este livro, na Amazon, é: https://www.amazon.com/Logistic-Regression-Self-Learning-Statistics-Biology/dp/1441917411/

E, por curiosidade, para conhecer um pouco mais sobre o estudo de Framingham, acesse: https://www.framinghamheartstudy.org/

Obrigado por sua atenção!

Deixe uma resposta

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *