Big Data

Medbring egne data til DTU Diploms projektorienterede Big Data-kursus

Indsamling, lagring, analyse og rapportering af store datamængder fra fx søgemaskiner og sociale medier er komplekst, og kræver viden og indsigt for at kunne finde sammenhænge og få fuldt udbytte af al dataet.

Big Data er potentiel værdifuld viden til fx at kunne målrette kommunikationen og markedsføringen - helt transformere forretningen i mange virksomheder.

Klassiske discipliner som data mining og data warehousing baserer sig på fast definerede dataformater og databaseskemaer, som ikke rækker når datamængderne bliver meget omfattende, heterogene, inkonsistente og med varierende informationer.

Her skal man videre end de relationelle databaser rækker. Big Data lagres typisk distribueret og replikeret i en NoSQL-database på et cluster af maskiner styret af Hadoop, i skyen eller på egne servere. 

Kursusforløb

Du bliver præsenteret for de større Big Data platforme og visualisering i skyen. Du få også mulighed for at arbejde med egne data med mulighed for visualisering, klassifikation, machine learning og identifikation af outliers. Der vil være kort introduktion til den matematik, som det forudsætter man kan anvende, til at arbejde med mangedimensionale data.

Derpå etablerer vi vores eget Big Data-miljø med et Hadoop-cluster og NoSQL-datalager til egne data, arbejder med opsamling, konvertering, scripting og oprensning af heterogene datasæt, ligesom der gives en introduktion til administration og vedligeholdelse af et Linux-cluster med Hadoop.

Ofte er data så omfattende, at det ikke kan svare sig at lave et udtræk til en beregning - i stedet sender man beregningen til de enkelte maskiner i clusteret, sådan at udtræk og analyser, der kan udføres distribueret og parallelt (MapReduce). Afslutningsvis går vi videre med mere fleksible frameworkds og arbejder med Apacke Spark og RDD (Resilient Distributed Datasets).

Projektorienteret forløb

Fra midt i kurset arbejder vi projektorienteret med et selvvalgt datasæt og problemstilling, for eksempel fra din virksomhed - og du vil selvfølgelig have mulighed for individuel sparring, hjælp og vejledning til at lagre, behandle, analysere, modellere dine egne data.

Forudsætninger og krav

Du skal have kendskab til programmering, og ønske om at lære mere programmering. I kurset introduceres R, Java og scripting. Egen PC (med Mac, Windows eller Linux) medbringes.

Afhængig af dine datas størrelse må du regne med at afsætte midler til lagring og behandling af disse.

Praktisk

Start: Torsdag, 1. februar, 2018, kl.17.00-20.30

Undervisning:14 torsdage i perioden januar-maj 2018

Sted: DTU Diplom, Lautrupvang 15, 2750 Ballerup

Eksamen: Uge 24-26, 2018. Dato for opgaveaflevering og mundtlig eksamen oplyses på DTU Inside (CampusNet).

Pris: kr. 13.000

Har du yderligere spørgsmål til kurset, så kontakt Jacob Nordfalk, jacno@dtu.dk

 

 


KontaktJacob Nordfalk
Lektor
DTU Diplom
jacno@dtu.dk

 

 

 

KontaktRoger Munck-Fairwood
Studieleder
DTU Diplom
Studieleder.itd@diplom.dtu.dk


 

 

Big Data

Vil du vide mere om Big Data, og hvordan det kan bruges i din virksomhed?

Næste hold starter februar 2018 - læs mere her 

Kontakt sekretariatet

Center for Videreuddannelse
DTU Diplom
Lautrupvang 15
2750 Ballerup
Tlf: 3588 5100
cv@diplom.dtu.dk

Telefontid: kl.10-14 

 

Personlig vejledning

Hvis du har specifikke spørgsmål om vores uddannelser eller moduler, kan du tale med en af vores studievejledere.

Tilmeld dig personlig vejledning 

http://www.cv.diplom.dtu.dk/Diplomuddannelser/IT-Diplomuddannelsen/Big-Data
15 DECEMBER 2017