Les 1: Intro data Flashcards

(21 cards)

1
Q

wat is data science

A

Business domein dat grote hoeveelheden data gebruikt om nieuwe inzichten te ontdekken, voorspellingen te doen en beslissingen te ondersteunen.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

wat is BI

A

Business Intelligence is het analyseren van data om business te ondersteunen (rapporteren, dashboards, analytics,
…)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

geef visueel de relatie weer tussen: AI, machine learning, deep learning, data science en BI

A
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

wat is data engineering

A

Installeren en onderhouden van infrastructuur die data toegankelijk maakt.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

wat is DevOps

A

Praktijken binnen software ontwikkeling die toelaten om snel wijzigingen door te voeren

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

wat is MLOps

A

ML (Machine Learning) Operations zijn praktijken die toelaten om ML modellen betrouwbaar en efficiënt in productie te zetten.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

geef visueel de relatie tussen: datascience & machine learning, data engineering, DevOps en MLOps

A
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

wat zijn voorbeelden van deap learning (DL)

A

vertalen (google translate)
spraakherkenning
beeldherkenning
persoonlijke aanbevelingen
games

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

welke 3 primaire datatypen zijn er

A

gestructureerd
semi-gestructureerd
ongestructureerd

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

leg gestructureerde data uit

A
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

leg semi-gestructureerde data uit

A
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

leg ongestructureerde data uit

A
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

wat is er speciaal bij tooling van data

A

er zijn teveel tools om bij te houden
focus meer op de concepten dan de tools

Python is wel al enkele jaren bezig met een opmars rond data.
R is traditioneel nog steeds populair.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

hoe ziet de data science lifecycle er uit in 6 stappen+ waar begin je

A

+ je begint bij business understanding

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

leg het deeltje business understanding uit van de data science lifecycle

A

wat is het doel van het project?
wat is de business case?
welke databronnen zijn er?

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

leg het deeltje data collection & understanding uit van de data science lifecycle

A

samenbrengen van data en analyseren
welke informatie zit er in de data?
is de data geschikt voor het probleem?
is de data kwaliteit voldoende?

17
Q

leg het deeltje data preparation uit van de data science lifecycle + vb. secundaire school

A

feature engineering: omzetten van data in nuttige velden
wat met ontbrekende waardes?
data samenbrengen in 1 tabel
+ tabel van secundaire school met TSO, BSO, KSO, ASO naar tabel van secundaire school met 1, 2, 3, 4

18
Q

leg het deeltje modeling uit van de data science lifecycle

A

gebruik van machine learning om model te trainen uit de data

19
Q

leg het deeltje evaluation uit van de data science lifecycle

A

is het model geschikt om het originele probleem op te lossen?

20
Q

leg het deeltje business understanding uit van de data science lifecycle + vb. uitval van studenten

A

model in productie zetten zodat de eindgebruikers het kunnen gebruiken
+ automatisch berekenen van uitval risico voor nieuwe studenten en toegankelijk maken voor studentenbegeleiders

21
Q

pas de data science lifecycle toe a.d.h.v. het voorbeeld: spam filter

A

Business Understanding:
Hoe zal het systeem werken?
Hoe nauwkeurig moet het spam kunnen detecteren?
Welke data is er?
Database met mails met aanduiding van
welke spam zijn?
Data Collection & Understanding:
Samenbrengen historische mails en kijken hoeveel er spam zijn.
Evolueert spam doorheen de tijd?
Data preparation:
Maken van informatieve datavelden (bevat mail bepaalde woorden zoals “Proficiat!”)
Modeling:
Classificatie
Evaluatie:
Hoeveel spam wordt er daadwerkelijk gedetecteerd?
Is dit voldoende voor een filter?
Deployment:
Gebruik van model in mailbox