Continuando a série de artigos sobre Probabilidade para Machine Learning, neste post vamos falar de soma de Probabilidades e Probabilidade Condicional, e os impactos disso para a construção de modelos de Machine Learning.
Soma das Probabilidades#
Quando precisamos saber a probabilidade total de mais de um evento ocorrer, podemos usar a regra da soma de probabilidades, porem temos que levar em consideração se os eventos são mutuamente exclusivos ou independentes.
Mutuamente Exclusivos#
Eventos mutuamente exclusivos (em inglês Disjoint Events) são aqueles que não podem ocorrer ao mesmo tempo. Por exemplo, ao lançar um dado, não é possível obter um numero par e impar ao mesmo tempo, ou um exemplo mais voltado a aplicação de Machine learning, se eu tenho um modelo que classifica uma peça em “defeituosa” ou “não defeituosa”, não é possível a peça ter as duas classificações ao mesmo tempo.
Matematicamente diríamos que \(P(A \cap B) = 0\), ou seja, a probabilidade de ambos os eventos ocorrerem ao mesmo tempo (interseção \(\cap\)) é zero.
Supomos que a probabilidade calculada pelo modelo seja de 0.4 para “defeito leve”, e 0.5 para “defeito grave”, 0.1 para “não defeituosa”, e quero saber qual a probabilidade de uma peça ter defeito, ou seja de ter defeito leve ou defeito grave:
$$P(defeito) = P(\text{defeito leve}) + P(\text{defeito grave}) = 0.4 + 0.5 = 0.9 = 90\%$$\(P(defeito)\) pode ser simbolizado também como a união (\(\cup\)) entre os eventos, ou seja, \(P(defeito) = P(\text{defeito leve} \cup \text{defeito grave})\).
Não Mutuamente exclusivos#
Eventos não mutuamente exclusivos são aqueles que podem ocorrer ao mesmo tempo. Por exemplo, supondo que você tem um modelo de detecção de objetos em uma imagem, e esse modelo detecta gatos e pássaros. É possível em que uma mesma imagem tenha um gato e um pássaro, ou seja, \(P(gato \cap pássaro) \) não é necessariamente zero.
Nesse caso, para calcular a probabilidade de um evento ou outro ocorrer, precisamos subtrair a probabilidade de ambos os eventos ocorrerem ao mesmo tempo, para evitar contar essa interseção duas vezes:
$$P(gato \cup pássaro) = P(gato) + P(pássaro) - P(gato \cap pássaro)$$Independentes / Dependentes#
Então entendendo que para saber a probabilidade de dois eventos ocorrerem ao mesmo tempo eu preciso calcular a interseção entre eles, como faço pra calcula-lo, sendo que só vimos até a agora a união \(\cup\)? A palavra chave aqui é “e”, ou sejam, qual a probabilidade da imagem ter um gato e um pássaro ao mesmo tempo?
$$P(gato \cap pássaro) = P(gato) \cdot P(pássaro)$$, ou seja, se a \(P(gato) = 0.3\) e \(P(pássaro) = 0.4\), então
$$P(gato \cap pássaro) = 0.3 \cdot 0.4 = 0.12 = 12\%$$Porém isso é valido apenas para eventos independentes, ou seja, eventos que não influenciam um ao outro.
Verifiquemos outro exemplo. Suponha que adicionemos a esse modelo a detecção de carros e estradas. Suponhamos que possuímos 100 imagens, e que 20 possuem um carro, 10 possuem uma estrada, e 5 possuem ambos. Então:
$$P(carro) = \frac{20}{100} = 0.2 = 20\%$$$$P(estrada) = \frac{10}{100} = 0.1 = 10\%$$portanto, de acordo com nossos cálculos:
$$P(carro \cap estrada) = P(carro) \cdot P(estrada) = 0.2 \cdot 0.1 = 0.02 = 2\%$$, porém, na nossa contagem, vimos que temos 5 imagens que possuem ambos, ou seja :
$$P(carro \cap estrada) = \frac{5}{100} = 0.05 = 5\%$$Por que os cálculos não bateram? Porque se analisarmos o contexto, realmente a probabilidade de uma imagem de um carro ter também uma estrada não é zero, gera uma certa dependência entre eles. Daí vem a importância de analisar o contexto dos seus dados.
Por que é importante entender a diferença entre eventos independentes e dependentes?#
Probabilidade Condicional#
Sabendo então que alguns eventos podem ser dependentes do outro, como nosso caso de carro e estrada, podemos calcular a probabilidade de evento ocorrer sabendo (dado) que outro evento ocorreu, ou seja, qual a probabilidade de carros aparecerem em uma imagem sabendo que já temos uma estrada. Isso é chamado de probabilidade condicional:
$$P(A | B) = \frac{P(A \cap B)}{P(B)}$$, no nosso caso:
$$P(carro | estrada) = \frac{P(carro \cap estrada)}{P(estrada)}$$, usamos o símbolo \( | \) para indicar “dado que”, ou sejam probabilidade de ter um carro dado que já temos uma estrada. Assim sendo:
$$P(carro | estrada) = \frac{0.05}{0.1} = 0.5 = 50\%$$Resumo#
Nesse artigo vimos a importância de entender a diferença entre eventos mutuamente exclusivos, não mutuamente exclusivos, independentes e dependentes, e como isso impacta diretamente na performance de modelos de Machine Learning. Vimos também como calcular a probabilidade de um evento sabendo que um outro evento dependente já ocorreu.
No próximo artigo, vamos falar sobre o Teorema de Bayes! Fique ligado! Caso queira receber um alerta quando um artigo for publicado, se inscreva abaixo.

