Divergência de Kullback-leibler
Predefinição:Distinguir Predefinição:Técnico Em estatística matemática, a divergência de Kullback-Leibler (também chamada de entropia relativa) é uma medida de, como uma distribuição de probabilidades diverge de uma segunda distribuição de probabilidades esperada distribuição. [1][2] As aplicações incluem a caracterização da entropia ('teoria da informação') em sistemas de informação, a aleatoriedade, em séries temporais, ganho de informação ao comparar com modelos estatísticos de inferência. Em contraste com a variação de informação, é uma medida 'assimétria' da distribuição e, portanto, não se qualifica como uma métrica estatística. No caso mais simples, se a divergência de Kullback-Leibler for igual a 0, esta indica que podemos esperar um comportamento semelhante, se não o mesmo, entre duas distribuições diferentes, enquanto uma divergência de Kullback-Leibler de 1 indica que as duas distribuições se comportam de maneira diferente. Em termos simplificados, é uma medida com diversas aplicações nas áreas de estatística aplicada, mecânica dos fluidos, neurociência e aprendizado de máquina.
Etimologia
A divergência de Kullback-Leibler foi introduzida por Solomon Kullback e Richard Leibler em 1951 como a divergência, distância entre duas distribuições; Kullback preferiu o termo 'informação de discriminação' . [3]
Interpretações
A divergência de Kullback-Leibler de Q para P é frequentemente denotada com DKL(P‖Q ).
No contexto do aprendizado de máquina, DKL( P‖Q ) é frequentemente chamado de ganho de informação alcançado se Q for usado ao invés de P. Por analogia com a teoria da informação, também é chamada de entropia relativa de Pem relação a Q. No contexto da teoria de codificação, D KL(P‖Q) pode ser interpretado como medida do número esperado de bits extras bits necessários para código amostras de P usando um código optimizado para Q ao invés do código optimizado para P.
Na visão de [Inferência Bayesiana]], DKL (P‖Q) é uma medida da informação obtida quando alguém revê suas crenças da distribuição de probabilidade inicial Q para distribuição de probabilidade final P. Em outras palavras, é a quantidade de informação perdida quando Q é usado para aproximar P. [4] Em aplicações, P tipicamente representa a distribuição "verdadeira" de dados, observações, ou uma distribuição teórica precisamente calculada, enquanto Q tipicamente representa uma teoria, modelo , descrição ou aproximação de P. Para encontrar uma distribuição Q mais próxima de P, podemos minimizar a divergência de KL e computar uma projeção de informação.
A divergência de Kullback-Leibler é um caso especial de uma classe mais ampla de divergências chamada divergênciasf assim como a classe de divergência de Bregman. É a única divergência sobre probabilidades que é um membro de ambas as classes. Muitas vezes é intuído pensar como uma forma de medir a distância entre distribuições de probabilidade, a divergência de Kullback-Leibler não é uma verdadeiramente métrica. Ela não obedece à desigualdade triangular e, em geral, DKL( P‖Q ) não é igual a DKL( Q‖P ). No entanto, sua forma infinitesimal, especificamente sua Hessiana, fornece um tensor métrico conhecido como informação de Fisher.
Definição
Para uma distribuição discreta de probabilidade P e Q, a divergência de Kullback-Leibler de Q para P 'é definida.[5] como,
o que é equivalente a
Em outras palavras, é a expectativa da diferença logarítmica entre as probabilidades P e Q, onde a expectativa é obtida usando as probabilidades P. A divergência de Kullback-Leibler é definida apenas se para todo i, Predefinição:Nowrap implica Predefinição:Nowrap (continuidade absoluta). Sempre que P(i) é zero, a contribuição do i-ésimo termo é interpretado como zero pois .
Para as distribuições P e Q de uma variável aleatória contínua, a divergência de Kullback-Leibler é definida como sendo a integral:[6]
onde p e q denotam as densidades de P e Q.
De mode geral, se P e Q são probabilidade medida sobre um conjunto X, e P é absolutamente contínua em relação a Q, então o Kullback-Leibler divergência de Q para P é definida como
Onde é a derivada de Radon-Nikodym de P em relação a Q, garantindo dado que a expressão do lado direito exista. Equivalente, isso pode ser escrito como
que é a entropia de P em relação a Q. Continuando neste caso, se é uma medida em X para o qual e existita (o que significa que p e q são absolutamente contínuas em relação a ), então a divergência Kullback–Leibler de Q a P é dada como
Os logaritmos destas fórmulas são tomados na base 2 se a informação é medida em unidades de bits ou na base e se a informação é medida em nat s. A maioria das fórmulas envolvendo a divergência de Kullback-Leibler são verdadeiras independente da base do logaritmo.
Existem várias convenções para se referir a DKL(P‖Q) em palavras. Muitas vezes é referida como a divergência entre P e Q; no entanto, isso não consegue transmitir a assimetria fundamental na relação. Às vezes, como neste artigo, pode ser encontrada descrita como a divergência de P a partir de, ou em relação a Q. Isso reflete a assimetria na inferência bayesiana, que inicia de um Q anterior e atualiza para o P posterior.
- ↑ Predefinição:Citar periódico
- ↑ Predefinição:Citation. Republished by Dover Publications in 1968; reprinted in 1978: Predefinição:ISBN.
- ↑ Predefinição:Citar periódico
- ↑ Predefinição:Citar livro
- ↑ Predefinição:Citar livro
- ↑ Bishop C. (2006). Pattern Recognition and Machine Learning p. 55.