Summary  
This chapter explains how to manage very large tables in SQL by using table sampling to query a random subset of rows and by creating external table connections to data stored in cloud storage without full import.  

General domain of usage  
Data analytics

Apprenez à gérer **de très grandes tables dans BigQuery** sans coûts excessifs ni problèmes de performance. Découvrez **l'échantillonnage de tables** et **les connexions à des données externes**, deux techniques permettant d'analyser efficacement de grands ensembles de données lorsque les analyses complètes de tables ne sont pas nécessaires ou réalisables.

## Échantillonnage de tables

L'échantillonnage de tables permet d'analyser un **sous-ensemble aléatoire** d'une grande table au lieu de parcourir toutes les lignes. Cette méthode est utile lorsque :

* Vous explorez des tendances et des motifs plutôt que des valeurs exactes ;
* L'ensemble de données est trop volumineux pour être analysé efficacement ;
* Vous souhaitez réduire le coût et le temps d'exécution des requêtes.

L'échantillonnage suppose que les données sont déjà propres et représentatives, ce qui permet d'obtenir des informations fiables à partir d'une portion réduite de l'ensemble de données.

## Accès aux données externes via Google Cloud Storage

Lorsque les ensembles de données sont trop volumineux pour être importés directement dans BigQuery — ou ne peuvent pas être ouverts dans des outils comme les tableurs — il est possible de les stocker dans **Google Cloud Storage** et de les interroger de manière externe.

BigQuery permet de se connecter à des fichiers stockés dans Cloud Storage et d'exécuter des requêtes **sans importer les données** dans BigQuery. Cette méthode est utile lorsque :

* Vous travaillez avec des données provenant de systèmes externes ou de collaborateurs ;
* Vous analysez de grandes archives ou des fichiers journaux ;
* Vous souhaitez limiter les coûts de stockage et d'ingestion.

## Point clé à retenir

Lors de la gestion de jeux de données volumineux :

* Utilisez **l'échantillonnage** pour analyser les données plus rapidement et à moindre coût tout en préservant la pertinence globale des résultats ;
* Utilisez **les connexions à des données externes** lorsque l'importation complète des données n'est pas réalisable.

Ces techniques permettent de maintenir des workflows BigQuery flexibles, économiques et évolutifs.


Plongez dans les fondamentaux de la plateforme BigQuery et transformez votre gestion des données cloud. Maîtrisez les compétences nécessaires pour naviguer dans la console, gérer les projets et optimiser les coûts des requêtes. Acquérez une expérience pratique avec des fonctionnalités spécifiques à BigQuery telles que les opérations sur les tableaux, les données géographiques et les fonctions de date. Explorez des techniques d’optimisation avancées et découvrez les secrets de la création de modèles de machine learning directement dans l’entrepôt grâce à BigQuery ML.

Acquérir une compréhension approfondie de l'environnement BigQuery, distinct des bases de données traditionnelles. Apprendre à naviguer dans la console, à gérer les projets et les ensembles de données, et à analyser les coûts de manière efficace. Développer la confiance dans la configuration de votre espace de travail pour une analyse de données efficiente.

Explorez les principes fondamentaux du moteur de requête pour extraire efficacement des données. Maîtrise des techniques de sélection de données et analyse de métriques spécifiques aux produits. Découverte des fonctionnalités de performance et des méthodes de test de requêtes pour garantir une analyse rapide et précise.

Élevez vos connaissances en maîtrisant les types de données spécifiques à BigQuery. Apprenez à gérer des opérations complexes sur les tableaux et à manipuler les fonctions de date et d'heure. Explorez les fonctionnalités géographiques pour résoudre des problématiques liées à la localisation, telles que le calcul des distances entre villes.

Optimisez votre flux de travail en gérant de grandes tables et en améliorant les performances des requêtes. Découvrez les secrets d'une gestion efficace des erreurs pour résoudre rapidement les problèmes. Maîtrisez les compétences nécessaires pour maintenir un environnement de base de données haute performance.

Appliquez vos connaissances à des scénarios réels. Découvrez comment élaborer des rapports complets et intégrer BigQuery avec des outils externes. Transformez des données brutes en informations exploitables pour l'entreprise grâce à des stratégies pratiques d'application et de reporting.

Plongez dans les fondamentaux de BigQuery ML. Découvrez comment créer et exécuter des modèles d'apprentissage automatique à l'aide du SQL standard sans déplacer les données. Acquérez une expérience pratique grâce à des démonstrations de modèles pour prédire des résultats directement sur la plateforme.

Gestion des Grandes Tables

Échantillonnage de tables

Accès aux données externes via Google Cloud Storage

Point clé à retenir