Conteúdo do Curso
Desafio de Entrevista em Ciência de Dados
Desafio de Entrevista em Ciência de Dados
Desafio 1: Probabilidades e Distribuições
Na vasta extensão da estatística, dois conceitos fundamentais reinam suprema: probabilidades e distribuições. Esses dois pilares servem como a base sobre a qual grande parte da teoria e aplicação estatística são construídas.
Probabilidade é uma medida de incerteza. Ela quantifica a probabilidade de um evento ou resultado ocorrer, sempre dentro do intervalo de 0 a 1.
Distribuições, por outro lado, fornecem uma visão holística de todos os possíveis resultados de uma variável aleatória e as probabilidades associadas a cada resultado. Elas mapeiam o comportamento dos dados, seja na forma de uma série de lançamentos de moedas, alturas de indivíduos em uma população, ou o tempo que leva para um ônibus chegar. Existem duas categorias principais de distribuições:
-
Distribuições Discretas: Estas retratam cenários onde o conjunto de possíveis resultados é distinto e finito. Um exemplo é a distribuição Binomial, que poderia representar o número de caras obtidas em um determinado número de lançamentos de moeda.
-
Distribuições Contínuas: Aqui, os resultados podem assumir qualquer valor dentro de um intervalo dado. A distribuição Normal ou Gaussiana é um exemplo clássico, representando dados que se agrupam em torno de um valor médio ou central.
Aqui está o conjunto de dados que usaremos neste capítulo. Sinta-se à vontade para mergulhar e explorá-lo antes de abordar a tarefa.
import matplotlib.pyplot as plt import seaborn as sns # Load the dataset data = sns.load_dataset('tips') # Sample of data display(data.head()) # Visualize the distribution of 'total_bill' sns.displot(data['total_bill']) plt.title('Distribution of Total Bill') plt.show()
Swipe to show code editor
Utilizando o conjunto de dados tips
do Seaborn, você irá:
- Extrair as principais métricas estatísticas para a coluna
total_bill
para entender suas tendências centrais e dispersão. - Utilizar um gráfico Q-Q para visualizar como os dados do
total_bill
se conformam a uma distribuição normal. - Empregar o teste de Shapiro-Wilk para avaliar estatisticamente a normalidade da distribuição do
total_bill
. - Determinar a probabilidade de que uma conta selecionada aleatoriamente do conjunto de dados seja mais de $20.
Obrigado pelo seu feedback!
Desafio 1: Probabilidades e Distribuições
Na vasta extensão da estatística, dois conceitos fundamentais reinam suprema: probabilidades e distribuições. Esses dois pilares servem como a base sobre a qual grande parte da teoria e aplicação estatística são construídas.
Probabilidade é uma medida de incerteza. Ela quantifica a probabilidade de um evento ou resultado ocorrer, sempre dentro do intervalo de 0 a 1.
Distribuições, por outro lado, fornecem uma visão holística de todos os possíveis resultados de uma variável aleatória e as probabilidades associadas a cada resultado. Elas mapeiam o comportamento dos dados, seja na forma de uma série de lançamentos de moedas, alturas de indivíduos em uma população, ou o tempo que leva para um ônibus chegar. Existem duas categorias principais de distribuições:
-
Distribuições Discretas: Estas retratam cenários onde o conjunto de possíveis resultados é distinto e finito. Um exemplo é a distribuição Binomial, que poderia representar o número de caras obtidas em um determinado número de lançamentos de moeda.
-
Distribuições Contínuas: Aqui, os resultados podem assumir qualquer valor dentro de um intervalo dado. A distribuição Normal ou Gaussiana é um exemplo clássico, representando dados que se agrupam em torno de um valor médio ou central.
Aqui está o conjunto de dados que usaremos neste capítulo. Sinta-se à vontade para mergulhar e explorá-lo antes de abordar a tarefa.
import matplotlib.pyplot as plt import seaborn as sns # Load the dataset data = sns.load_dataset('tips') # Sample of data display(data.head()) # Visualize the distribution of 'total_bill' sns.displot(data['total_bill']) plt.title('Distribution of Total Bill') plt.show()
Swipe to show code editor
Utilizando o conjunto de dados tips
do Seaborn, você irá:
- Extrair as principais métricas estatísticas para a coluna
total_bill
para entender suas tendências centrais e dispersão. - Utilizar um gráfico Q-Q para visualizar como os dados do
total_bill
se conformam a uma distribuição normal. - Empregar o teste de Shapiro-Wilk para avaliar estatisticamente a normalidade da distribuição do
total_bill
. - Determinar a probabilidade de que uma conta selecionada aleatoriamente do conjunto de dados seja mais de $20.
Obrigado pelo seu feedback!