Semplifica l’analisi dei big data con Amazon Athena

Semplifica l’analisi dei big data con Amazon Athena

Amazon Athena è un servizio di query interattivo che permette di semplificare l’analisi dei dati su Amazon S3 utilizzando SQL standard,anche per dataset di grandi dimensioni e query complesse assicurando risultati in tempi record.
E’ semplice nell’uso: tramite la Console di gestione AWS è possibile far accedere Athena ai dati archiviati in S3 e utilizzare SQL standard per eseguire le interrogazioni desiderate ottenendo in pochi secondi i risultati.
Athena è una soluzione molto conveniente non essendo necessario un server elimina i costi di gestione e amministrazione dell’infrastruttura. Inoltre le tariffe sono calcolate esclusivamente sul consumo, per le query che si vogliono eseguire.
In questo tutorial imparerai a utilizzare Athena per interrogare i dati, ti forniremo strumenti per creare una tabella che raccolga i dati archiviati su S3, per eseguire su questa un’interrogazione e in fine per procedere al controllo dei risultati delle query che hai richiesto.

Prerequisiti
Se già hai un account AWS puoi iniziare a utilizzare Athena. Altrimenti, non esitare a contattarci, effettueremo per te la registrazione configurando l’ account con le tue specifiche.

Step 1: Crea un database su Athena

1. Tramite la Console di gestione AWS seleziona il servizio Athena e apri la console.

2. In caso fosse il primo accesso vai alla pagina introduttiva e scegli Get Started per aprire l’editor di query. Se invece hai già avuto occasione di navigarla si aprirà immediatamente l’editor di query.

3. Nell’editor di query, viene visualizzato un riquadro con un’interrogazione di esempio. Scrivi la tua query nel riquadro indicato.immagine db list e refresh

Step 2: Crea una tabella

Ora che hai un database, puoi procedere alla creazione di una tabella basata su file di dati di esempio. Definisci le colonne che si assoceranno ai dati, specifica come il dato deve essere delimitato e fornisci per il file la posizione su Amazon S3.

1. Assicurati che nel box DATABASE sia selezionato mydatabase, quindi scegli New Query.

2. Nel riquadro della query, immetti l’istruzione CREATE TABLE, quindi seleziona Run Query:

Nota
Puoi eseguire interrogazioni su dati anche in regioni diverse da quella in cui si utilizza Athena. In questo caso alla tariffa standard di Athena si andrà a sommare la cifra per il trasferimento dati inter-regione standard di Amazon S3.
Se vuoi ridurre i costi puoi sostituire MyRegion con la regione in cui viene eseguita Athena, per esempio: s3://athena-examples-myregion/path/to/data/s3://athena-examples-us-east-1/path/to/data/

CREATE EXTERNAL TABLE IF NOT EXISTS cloudfront_logs (
`Date` DATE,
Time STRING,
Location STRING,
Bytes INT,
RequestIP STRING,
Method STRING,
Host STRING,
Uri STRING,
Status INT,
Referrer STRING,
os STRING,
Browser STRING,
BrowserVersion STRING
) ROW FORMAT SERDE ‘org.apache.hadoop.hive.serde2.RegexSerDe’
WITH SERDEPROPERTIES (
“input.regex” = “^(?!#)([^ ]+)\\s+([^ ]+)\\s+([^ ]+)\\s+([^ ]+)\\s+([^ ]+)\\s+([^ ]+)\\s+([^ ]+)\\s+([^ ]+)\\s+([^ ]+)\\s+([^ ]+)\\s+[^\(]+[\(]([^\;]+).*\%20([^\/]+)[\/](.*)$”
) LOCATION ‘s3://athena-examples-myregion/cloudfront/plaintext/’;

La tabella cloudfront_logs è stata creata e appare nella dashboard Catalog.

Immagine table crerate

Step 3: Query sui dati

Creata la tabella cloudfront_logs in base ai dati in Amazon S3, puoi eseguire query sulla tabella e vederne i risultati.

Scegli New Query, inserisci l’istruzione seguente nel pannello di query:

SELECT os, COUNT(*) count
FROM cloudfront_logs
WHERE date BETWEEN date ‘2014-07-05’ AND date ‘2014-08-05’
GROUP BY os;

quindi scegli Run Query:

I risultati vengono restituiti in modo simile al seguente:

Immagine risultati

 

E’ possibile salvare in CSV i risultati di una interrogazione selezionando l’icona del file nel riquadro Results.

immagine seva csv

Step 4: Visualizza i risultati

Athena ti consente di visualizzare i risultati delle interrogazioni precedenti e anche di quelle che potrebbero richiedere del tempo per essere completate.
Scegli History, cerca la tua query oppure scegli View o Download per visualizzare o scaricare i risultati delle query che sono state completate precedentemente.

Inoltre, ti verrà mostrato lo stato delle query attualmente in esecuzione. Ricorda che la cronologia viene conservata per 45 giorni.

immagine history

 

I risultati vengono anche memorizzati in Amazon S3 in un bucket chiamato: aws-athena-query-results-ACCOUNTID-REGION.

Puoi modificare la posizione impostata di default nella console e le opzioni di crittografia selezionando Settings nel riquadro in alto a destra.

Vuoi saperne di più su i big data? Scopri sette aspetti per conoscerli!

Comments are closed.

Utilizzando il sito, accetti l'utilizzo dei cookie da parte nostra. maggiori informazioni

Questo sito utilizza i cookie per fornire la migliore esperienza di navigazione possibile. Continuando a utilizzare questo sito senza modificare le impostazioni dei cookie o cliccando su "Accetta" permetti il loro utilizzo.

Chiudi