wat is data science
Business domein dat grote hoeveelheden data gebruikt om nieuwe inzichten te ontdekken, voorspellingen te doen en beslissingen te ondersteunen.
wat is BI
Business Intelligence is het analyseren van data om business te ondersteunen (rapporteren, dashboards, analytics,
…)
geef visueel de relatie weer tussen: AI, machine learning, deep learning, data science en BI
wat is data engineering
Installeren en onderhouden van infrastructuur die data toegankelijk maakt.
wat is DevOps
Praktijken binnen software ontwikkeling die toelaten om snel wijzigingen door te voeren
wat is MLOps
ML (Machine Learning) Operations zijn praktijken die toelaten om ML modellen betrouwbaar en efficiënt in productie te zetten.
geef visueel de relatie tussen: datascience & machine learning, data engineering, DevOps en MLOps
wat zijn voorbeelden van deap learning (DL)
vertalen (google translate)
spraakherkenning
beeldherkenning
persoonlijke aanbevelingen
games
welke 3 primaire datatypen zijn er
gestructureerd
semi-gestructureerd
ongestructureerd
leg gestructureerde data uit
leg semi-gestructureerde data uit
leg ongestructureerde data uit
wat is er speciaal bij tooling van data
er zijn teveel tools om bij te houden
focus meer op de concepten dan de tools
Python is wel al enkele jaren bezig met een opmars rond data.
R is traditioneel nog steeds populair.
hoe ziet de data science lifecycle er uit in 6 stappen+ waar begin je
+ je begint bij business understanding
leg het deeltje business understanding uit van de data science lifecycle
wat is het doel van het project?
wat is de business case?
welke databronnen zijn er?
leg het deeltje data collection & understanding uit van de data science lifecycle
samenbrengen van data en analyseren
welke informatie zit er in de data?
is de data geschikt voor het probleem?
is de data kwaliteit voldoende?
leg het deeltje data preparation uit van de data science lifecycle + vb. secundaire school
feature engineering: omzetten van data in nuttige velden
wat met ontbrekende waardes?
data samenbrengen in 1 tabel
+ tabel van secundaire school met TSO, BSO, KSO, ASO naar tabel van secundaire school met 1, 2, 3, 4
leg het deeltje modeling uit van de data science lifecycle
gebruik van machine learning om model te trainen uit de data
leg het deeltje evaluation uit van de data science lifecycle
is het model geschikt om het originele probleem op te lossen?
leg het deeltje business understanding uit van de data science lifecycle + vb. uitval van studenten
model in productie zetten zodat de eindgebruikers het kunnen gebruiken
+ automatisch berekenen van uitval risico voor nieuwe studenten en toegankelijk maken voor studentenbegeleiders
pas de data science lifecycle toe a.d.h.v. het voorbeeld: spam filter
Business Understanding:
Hoe zal het systeem werken?
Hoe nauwkeurig moet het spam kunnen detecteren?
Welke data is er?
Database met mails met aanduiding van
welke spam zijn?
Data Collection & Understanding:
Samenbrengen historische mails en kijken hoeveel er spam zijn.
Evolueert spam doorheen de tijd?
Data preparation:
Maken van informatieve datavelden (bevat mail bepaalde woorden zoals “Proficiat!”)
Modeling:
Classificatie
Evaluatie:
Hoeveel spam wordt er daadwerkelijk gedetecteerd?
Is dit voldoende voor een filter?
Deployment:
Gebruik van model in mailbox