Coeficiente de determinação
O coeficiente de determinação, também chamado de R², é uma medida de ajustamento de um modelo estatístico linear generalizado, como a regressão linear, em relação aos valores observados. O R² varia entre 0 e 1, indicando, em percentagem, o quanto o modelo consegue explicar os valores observados. Quanto maior o R², mais explicativo é o modelo, melhor ele se ajusta à amostra.
Por exemplo, se o R² de um modelo é 0,8234, isto significa que 82,34% da variável dependente consegue ser explicada pelos regressores presentes no modelo.
Método
Partindo de é o valor observado e é a média das observações, esta equação dá-nos a Soma Total dos Quadrados, ou seja, a soma dos quadrados das diferenças entre a média e cada valor observado.
Esta equação é a soma dos quadrados dos resíduos, que calcula a parte que não é explicada pelo modelo. onde é o valor estimado (previsão) de . Esta equação, a soma dos quadrados explicada, indica-nos a diferença entre a média das observações e o valor estimado para cada observação, e soma os respectivos quadrados. Quanto menor for a diferença, maior poder explicativo detém o modelo.
Em alguns casos temos:
R² ajustado
A inclusão de inúmeras variáveis, mesmo que tenham muito pouco poder explicativo sobre a variável dependente, aumentarão o valor de R². Isto incentiva a inclusão indiscriminada de variáveis, prejudicando o princípio da parcimônia (ver de forma mais ampla em navalha de Ockhan). Para combater esta tendência, podemos usar uma medida alternativa do coeficiente de determinação, que penaliza a inclusão de regressores pouco explicativos. Trata-se do R² ajustado:
Note que a inclusão de mais variáveis com pouco poder explicativo prejudica o valor do R² ajustado, porque aumenta uma unidade, sem aumentar substancialmente o .