Indice
- Dati organizzati
- Dati NON organizzati
- Data Scientist vs. Data Analyst
- Quanti dati creiamo in un giorno?
La Data Science, o scienza dei dati, è un settore interdisciplinare che si occupa dello studio, attraverso metodi scientifici e processi algoritmici, dell'estrazione, dell'elaborazione e della comprensione di enormi quantità di dati.
Il professionista che lavora nel settore della Data Science è detto "Data scientist". Il Data scientist possiede competenze in diverse discipline tra cui: statistica, informatica ed economia.
Le aziende si avvalgono dei data scientist per poter dare un significato ai propri dati, o per meglio dire creare "informazioni" dagli stessi.
I dati disponibili possono essere di due formati: i dati organizzati e i dati non organizzati.
Dati organizzati
I dati organizzati sono inseriti in strutture formate da righe e colonne (i database). I database sono strutture che permettono di immagazzinare i dati in maniera ordinata e di poterli richiamare, creare e modificare a seconda delle richieste effettuate dall'utente.
Dati NON organizzati
I dati non strutturati sono tutti quei dati che non sono organizzati in maniera strutturata e che non sono quindi facilmente interpretabili dalla macchina con meccanismi automatizzati. I dati non strutturati possono essere ad esempio: i file di testo (word, pdf etc..), i post sui social media, gli sms e i file multimediali.
Data Scientist vs. Data Analyst
In molti si saranno chiesti la sostanziale differenza tra la figura di analista dei dati e il data scientist. Le differenze sono dovute in primis all'enorme quantità di dati che il data scientist deve affrontare nelle sue analisi, mentre in seconda battuta l'aspetto fondamentale che li differenzia è il fatto che l'analista dei dati a prescindere dalla quantità è solito lavorare su dati strutturati, mentre il data scientist deve riuscire ad aggregare dati strutturati e dati non strutturati.
Inoltre un enorme quantità di lavoro che viene fatto dai data scientist, riguarda proprio la pulizia e l'organizzazione di molti dati non strutturati attraverso tecniche di Machine Learning.
Quanti dati creiamo in un giorno?
Secondo Forbes, tramite infografica Domo del 2017, in ogni minuto del giorno sono stati creati:
- 527,760 foto su Snapchat
- 120 profili creati su Linkedin
- Gli utenti hanno guardato 4,146,600 video su Youtube
- 456,000 Tweet inviati
- 46,740 foto pubblicate su Instagram
Questi numeri ci danno una panoramica dell'enorme quantità di dati (i famosi Big Data) che vengono ogni giorno creati dagli utenti su Internet.
Questa produzione giornaliera crea il problema nel disporre di una grossa quantità di dati non organizzati, che hanno bisogno di essere prima aggregati e poi analizzati automaticamente al fine di generare valore per le aziende.
Conclusione
La Data science si pone quindi come una possibile soluzione alla gestione e valorizzazione di questa enorme quantità di dati.