Scorri per mostrare il menu

Esplora BigQuery Machine Learning (BigQuery ML), una funzionalità che consente di creare e distribuire modelli di machine learning direttamente all'interno dell'interfaccia BigQuery utilizzando SQL. Elimina la necessità di Python o di framework ML esterni per eseguire modelli predittivi e di clustering senza uscire dall'ambiente del data warehouse.

BigQuery ML rappresenta un passo importante nella semplificazione dell'accesso alle capacità di machine learning, combinando scalabilità, facilità d'uso e integrazione dati senza soluzione di continuità.

Nessun bisogno di Python

BigQuery ML consente di creare, addestrare e valutare modelli utilizzando solo la sintassi SQL. Questo elimina la complessità di apprendere ulteriori linguaggi di programmazione e permette a chiunque abbia familiarità con SQL di partecipare a flussi di lavoro di analisi predittiva e data science.

Esempio:

CREATE MODEL `project.dataset.model_name`
OPTIONS(model_type='linear_reg') AS
SELECT * FROM dataset.table;

I dati non lasciano mai BigQuery

Tutti i calcoli avvengono all'interno dell'ambiente BigQuery. I dati non devono essere esportati o importati in un altro strumento. Questo garantisce sia la sicurezza dei dati che l'efficienza, evitando infrastrutture inutili o dipendenze esterne.

Completamente serverless e gestito

BigQuery ML è serverless — significa che Google gestisce automaticamente infrastruttura, scalabilità e allocazione delle risorse. Non è necessario predisporre server aggiuntivi o gestire ambienti.

Vantaggi

Facilità d'uso: è sufficiente la conoscenza di SQL per iniziare;
Località dei dati: i modelli vengono addestrati direttamente sui dati già presenti in BigQuery;
Nessun sovraccarico infrastrutturale: non è necessario disporre di ambienti ML separati o cluster di calcolo;
Insight più rapidi: costruzione, addestramento e valutazione dei modelli in pochi minuti anziché giorni.

Funzioni principali

`CREATE MODEL`

Definisce e addestra un modello. Esempio:

CREATE MODEL `dataset.sales_forecast`
OPTIONS(model_type='linear_reg') AS
SELECT * FROM dataset.sales_data;

`EVALUATE`

Misura le prestazioni del modello analizzando metriche come R-quadro, RMSE e margine di errore. Comprendere queste metriche garantisce che i modelli siano statisticamente validi e affidabili.

`PREDICT`

Genera previsioni utilizzando il modello addestrato. Tipicamente, l'80% dei dati viene utilizzato per l'addestramento e il 20% per il test, per garantire prestazioni bilanciate.

`EXPLAIN`

Interpreta il modello identificando quali caratteristiche influenzano maggiormente il risultato previsto. Questo aiuta a rilevare overfitting (troppe caratteristiche irrilevanti) e garantisce l'interpretabilità.

Tutto è chiaro?

Grazie per i tuoi commenti!

Sezione 6. Capitolo 1

Chieda ad AI

Chieda pure quello che desidera o provi una delle domande suggerite per iniziare la nostra conversazione

Introduzione a BigQuery ML