Big Data

Medbring egne data til DTU Diploms projektorienterede Big Data-kursus

Indsamling, lagring, analyse og rapportering af store datamængder fra fx søgemaskiner og sociale medier er komplekst, og kræver viden og indsigt for at kunne finde sammenhænge og få fuldt udbytte af al dataet.

Big Data er potentiel værdifuld viden til fx at kunne målrette kommunikationen og markedsføringen - helt transformere forretningen i mange virksomheder.

Klassiske discipliner som data mining og data warehousing baserer sig på fast definerede dataformater og databaseskemaer, som ikke rækker når datamængderne bliver meget omfattende, heterogene, inkonsistente og med varierende informationer.

Her skal man videre end de relationelle databaser rækker. Big Data lagres typisk distribueret og replikeret i en NoSQL-database på et cluster af maskiner styret af Hadoop, i skyen eller på egne servere. 

Kursusforløb

I kurset starter vi med en af de større platforme til Big Data og visualisering i skyen, hvorefter vi går over til at arbejde på lokale data med visualisering, klassifikation, machine learning og identifikation af outliers og kort introducerer den nødvendige matematik til at arbejde med mangedimensionale data.

Derpå etablerer vi vores eget Big Data-miljø, med et Hadoop-cluster og NoSQL-datalager til egne data, arbejder med opsamling, konvertering, scripting og oprensning af heterogene datasæt, ligesom der gives en introduktion til administration og vedligeholdelse af et Linux-cluster med Hadoop.

Ofte er data så omfattende, at det ikke kan svare sig at lave et udtræk til en beregning - i stedet sender man beregningen til de enkelte maskiner i clusteret, sådan at udtræk og analyser, der kan udføres distribueret og parallelt (MapReduce). Afslutningsvis går vi videre med mere fleksible frameworkds og arbejder med Apacke Spark og RDD (Resilient Distributed Datasets).

Projektorienteret forløb

Fra midt i kurset arbejder vi projektorienteret med et selvvalgt datasæt og problemstilling, for eksempel fra din virksomhed - og du vil selvfølgelig have mulighed for individuel sparring, hjælp og vejledning til at lagre, behandle, analysere, modellere dine egne data.

Forudsætninger og krav

Du skal have kendskab til programmering, og ønske om at lære mere programmering. I kurset introduceres R, Java og scripting. Egen PC (med Mac, Windows eller Linux) medbringes.

Afhængig af dine datas størrelse må du regne med at afsætte midler til lagring og behandling af disse.

Praktisk

Startdato: 31. august 2017

Undervisningstidspunkt: Torsdag, kl.17.00-20.30

Undervisningssted: DTU Diplom, Lautrupvang 15, 2750 Ballerup

Varighed: Afvikles over 14 torsdage i perioden august-december 2017

Eksamen: Uge 2-4, 2018. Dato for opgaveaflevering og mundtlig eksamen oplyses på DTU Inside (CampusNet).

Pris: kr. 13.000

10 ECTS

Tilmelding

Der åbnes for tilmelding til efterårssemestret primo maj 2017

Har du yderligere spørgsmål til kurset, så kontakt Jacob Nordfalk, jacno@dtu.dk

 

 


Kontakt



Jacob Nordfalk
Lektor
DTU Diplom

jacno@dtu.dk

 

 

 

Kontakt



Roger Munck-Fairwood
Studieleder
DTU Diplom
Studieleder.itd@diplom.dtu.dk


 

 

Big Data

Vil du vide mere om Big Data, og hvordan det kan bruges i din virksomhed?

Næste hold starter august 2017 - læs mere her 

Kontakt sekretariatet

Center for Videreuddannelse
DTU Diplom
Lautrupvang 15
2750 Ballerup
Tlf: 3588 5100
cv@diplom.dtu.dk


Kontakttid: kl.10-14

Personlig vejledning

Hvis du har specifikke spørgsmål om vores uddannelser eller moduler, kan du tale med en af vores studievejledere.

Tilmeld dig personlig vejledning 

http://www.cv.diplom.dtu.dk/Diplomuddannelser/IT-Diplomuddannelsen/Big-Data
24 MARTS 2017