Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Desafio 1: Probabilidades e Distribuições | Estatísticas
Desafio de Entrevista em Ciência de Dados
course content

Conteúdo do Curso

Desafio de Entrevista em Ciência de Dados

Desafio de Entrevista em Ciência de Dados

1. Python
2. NumPy
3. Pandas
4. Matplotlib
5. Seaborn
6. Estatísticas
7. Scikit-learn

book
Desafio 1: Probabilidades e Distribuições

Na vasta extensão da estatística, dois conceitos fundamentais reinam suprema: probabilidades e distribuições. Esses dois pilares servem como a base sobre a qual grande parte da teoria e aplicação estatística são construídas.

Probabilidade é uma medida de incerteza. Ela quantifica a probabilidade de um evento ou resultado ocorrer, sempre dentro do intervalo de 0 a 1.

Distribuições, por outro lado, fornecem uma visão holística de todos os possíveis resultados de uma variável aleatória e as probabilidades associadas a cada resultado. Elas mapeiam o comportamento dos dados, seja na forma de uma série de lançamentos de moedas, alturas de indivíduos em uma população, ou o tempo que leva para um ônibus chegar. Existem duas categorias principais de distribuições:

  1. Distribuições Discretas: Estas retratam cenários onde o conjunto de possíveis resultados é distinto e finito. Um exemplo é a distribuição Binomial, que poderia representar o número de caras obtidas em um determinado número de lançamentos de moeda.

  2. Distribuições Contínuas: Aqui, os resultados podem assumir qualquer valor dentro de um intervalo dado. A distribuição Normal ou Gaussiana é um exemplo clássico, representando dados que se agrupam em torno de um valor médio ou central.

Aqui está o conjunto de dados que usaremos neste capítulo. Sinta-se à vontade para mergulhar e explorá-lo antes de abordar a tarefa.

12345678910111213
import matplotlib.pyplot as plt import seaborn as sns # Load the dataset data = sns.load_dataset('tips') # Sample of data display(data.head()) # Visualize the distribution of 'total_bill' sns.displot(data['total_bill']) plt.title('Distribution of Total Bill') plt.show()
copy
Tarefa
test

Swipe to show code editor

Utilizando o conjunto de dados tips do Seaborn, você irá:

  1. Extrair as principais métricas estatísticas para a coluna total_bill para entender suas tendências centrais e dispersão.
  2. Utilizar um gráfico Q-Q para visualizar como os dados do total_bill se conformam a uma distribuição normal.
  3. Empregar o teste de Shapiro-Wilk para avaliar estatisticamente a normalidade da distribuição do total_bill.
  4. Determinar a probabilidade de que uma conta selecionada aleatoriamente do conjunto de dados seja mais de $20.
Switch to desktopMude para o desktop para praticar no mundo realContinue de onde você está usando uma das opções abaixo
Tudo estava claro?

Como podemos melhorá-lo?

Obrigado pelo seu feedback!

Seção 6. Capítulo 1
toggle bottom row

book
Desafio 1: Probabilidades e Distribuições

Na vasta extensão da estatística, dois conceitos fundamentais reinam suprema: probabilidades e distribuições. Esses dois pilares servem como a base sobre a qual grande parte da teoria e aplicação estatística são construídas.

Probabilidade é uma medida de incerteza. Ela quantifica a probabilidade de um evento ou resultado ocorrer, sempre dentro do intervalo de 0 a 1.

Distribuições, por outro lado, fornecem uma visão holística de todos os possíveis resultados de uma variável aleatória e as probabilidades associadas a cada resultado. Elas mapeiam o comportamento dos dados, seja na forma de uma série de lançamentos de moedas, alturas de indivíduos em uma população, ou o tempo que leva para um ônibus chegar. Existem duas categorias principais de distribuições:

  1. Distribuições Discretas: Estas retratam cenários onde o conjunto de possíveis resultados é distinto e finito. Um exemplo é a distribuição Binomial, que poderia representar o número de caras obtidas em um determinado número de lançamentos de moeda.

  2. Distribuições Contínuas: Aqui, os resultados podem assumir qualquer valor dentro de um intervalo dado. A distribuição Normal ou Gaussiana é um exemplo clássico, representando dados que se agrupam em torno de um valor médio ou central.

Aqui está o conjunto de dados que usaremos neste capítulo. Sinta-se à vontade para mergulhar e explorá-lo antes de abordar a tarefa.

12345678910111213
import matplotlib.pyplot as plt import seaborn as sns # Load the dataset data = sns.load_dataset('tips') # Sample of data display(data.head()) # Visualize the distribution of 'total_bill' sns.displot(data['total_bill']) plt.title('Distribution of Total Bill') plt.show()
copy
Tarefa
test

Swipe to show code editor

Utilizando o conjunto de dados tips do Seaborn, você irá:

  1. Extrair as principais métricas estatísticas para a coluna total_bill para entender suas tendências centrais e dispersão.
  2. Utilizar um gráfico Q-Q para visualizar como os dados do total_bill se conformam a uma distribuição normal.
  3. Empregar o teste de Shapiro-Wilk para avaliar estatisticamente a normalidade da distribuição do total_bill.
  4. Determinar a probabilidade de que uma conta selecionada aleatoriamente do conjunto de dados seja mais de $20.
Switch to desktopMude para o desktop para praticar no mundo realContinue de onde você está usando uma das opções abaixo
Tudo estava claro?

Como podemos melhorá-lo?

Obrigado pelo seu feedback!

Seção 6. Capítulo 1
Switch to desktopMude para o desktop para praticar no mundo realContinue de onde você está usando uma das opções abaixo
We're sorry to hear that something went wrong. What happened?
some-alt