Numeriblog Produits Google Google Cloud Platform BigQuery, créer un ensemble de données et une table

BigQuery, créer un ensemble de données et une table

Vous souhaitez vous familiariser avec BigQuery ? Apprenez ici à créer un ensemble de données ainsi qu’une table et lancer une première requête SQL ! Prérequis : Posséder un projet Google Cloud Platform (GCP) Contrainte […]

personnes ont consulté cet article

2 minutes

Rédigé par Pierre Buttignol - il y a 12 mois

BigQuery, créer un ensemble de données et une table

Vous souhaitez vous familiariser avec BigQuery ? Apprenez ici à créer un ensemble de données ainsi qu’une table et lancer une première requête SQL !

Prérequis :

  • Posséder un projet Google Cloud Platform (GCP)

Contrainte :

  • Faire attention aux rafraîchissements des données qui définissent votre facture pour l’utilisation de BigQuery. Pas de panique, vous pouvez gratuitement stocker 10 Go de données ainsi qu’analyser (via les requêtes) jusqu’à 1 To par mois. 
  • Si vous utilisez des ensembles de données publiques qui font partie du Programme d’ensembles de données publics de Google Cloud, le coût de stockage ne vous sera pas facturé !

BigQuery

BigQuery est un entrepôt de données (data warehouse) dont l’utilisation principale est le stockage de données et leur analyse. Il est conçu pour des données à l’échelle du pétaoctet (1 Po = 1000 To = 1 000 000 Go), et la vitesse d’exécution des requêtes est très très très rapide. On peut presque parler de temps-réel. 

De plus, comme beaucoup d’autres outils de la plateforme Google Cloud, le principal avantage est que la partie infrastructure est automatiquement gérée par Google. Avec BigQuery, pas besoin de se soucier des  problématiques de performance, de configuration et de scalabilité. C’est la belle vie, non ?

Enfin, vous pouvez connecter de nombreux outils pour visualiser vos données, tels que : Data Studio, Looker ou encore Google Sheets !

Introduction

Exemple :

Jean de son prénom, Dupont de son nom, est pompier, dispose de l’adresse email jean.dupont@yopmail.com, et est reconnu dans sa société par l’identifiant unique 143.

Vous l’aurez compris, vous allez garder uniquement les informations (les champs) nécessaires afin de créer un enregistrement pour Jean.

Vous créez donc l’enregistrement :

143,Jean,Dupont,jean.dupont@yopmail.com,pompier

Si on réalise cette même opération pour tout un panel de personnes, on obtient une liste d’enregistrement, communément appelée une table.

Ok, super, mais qu’est ce une vue alors ?

Une vue est une table virtuelle définie par une requête SQL. Cela signifie que les données présentes dans une vue proviennent d’autres tables. Les vues sont principalement utilisées pour afficher des données croisées entre plusieurs tables.

Création d’un ensemble de données

Il est temps pour vous de créer un ensemble de données. Rendez-vous sur BigQuery, et sélectionnez votre projet. 

Cliquez sur : Créer un ensemble de données.

Renseignez l’identifiant unique (ID) de votre ensemble de données et cliquez sur Créer un ensemble de données. 

Création d’une table

Vous allez maintenant créer une table, à partir d’un fichier de données (CSV). Vous pouvez télécharger ce fichier plat qui liste des enregistrements comme celui de Jean et servira d’exemple ici.

Cliquez sur sur le bouton +

Paramétrez la création de la table :

  1. Importer
  2. Le fichier metiers.csv
  3. Si le format n’est pas détecté automatiquement : CSV
  4. Le nom de la table
  5. Schéma et paramètres d’entrée.

Ici vous indiquez à BigQuery de détecter automatiquement le schéma des enregistrements qui est présent dans la première ligne du fichier :

Id,prenom,nom,email,profession

  1. Lancez la création de la table on cliquant sur Créer une table

Après quelques secondes, votre table est créée !

Double cliquez sur la table et l’onglet sur la droite va s’ouvrir comme ici.

Vous vous apercevez que le schéma a été correctement detecté. BigQuery indique même le type des valeurs. Pour le champ id : INTEGER (nombre entier), et les autres : STRING (chaîne de caractères).

Lancez une première requête SQL

Cliquez sur REQUÊTE

Et ajoutez la requête SQL suivante dans l’éditeur fraîchement ouvert.

SELECT profession, COUNT (email) as nombreEmail FROM `bigquery-328308.bigquery_exemple.metiers` GROUP BY profession

Cette requête permet d’afficher le nombre total d’adresses email pour chaque profession dans la table metiers

Cliquez sur EXÉCUTER afin de lancer la requête SQL et obtenir le résultat !

Félicitations

Vous avez créé votre premier ensemble de données, qui contient une table dont les valeurs ont été importées depuis un fichier CSV. Vous avez même lancé une requête SQL pour analyser ces données !

Si vous avez besoin de conseils pour l’utilisation de BigQuery, n’hésitez pas à prendre contact avec nous !

Pour aller plus loin, essayez de :

  • Vous amuser avec les requêtes SQL pour obtenir des analyses différentes
  • Créer d’autres tables dans votre ensemble de données, et même des vues

Rédacteur

S’abonner
Notification pour
guest
0 Commentaires
Commentaires en ligne
Afficher tous les commentaires