tict-vkbdsd-17/dag11.html at master · huict/tict-vkbdsd-17 · GitHub

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
156
157
158
159
160
161
162
163
164
165
166
167
168
169
170
171
172
173
174
175
176
177
178
179
180
181
182
183
184
185
186
187
188
189
190
191
192
193
194
195
196
197
198
199
200
201
202
203
204
205
206
207
208
209
210
211
212
213
214
215
216
217
218
219
220
221
222
223
224
225
226
227
228
229
230
231
232
233
234
235
236
237
238
239
240
241
242
243
244
245
246
247
248
249
250
251
252
253
254
255
256
257
258
259
260
261
262
263
264
265
266
267
268
269
270
271
272
273
274
275
276
277
278
279
280
281
282
283
284
285
286
287
288
289
290
291
292
293
294
295
296
297
298
299
300
301
302
303
304
305
306
307
308
309
310
311
312
313
314
315
316
317
318
319
320
321
322
323
324
325
326
327
328
329
330
331
332
333
334
335
336
337
338
339
340
341
342
343
344
345
346
347
348
349
350
351
352
353
354
355
356
357
358
359
360
361
362
363
364
365
366
367
368
369
370
371
372
373
374
375
376
377
378
379
380
381
382
383
384
385
386
387
388
389
390
391
392
393
394
395
396
397
398
399
400
401
402
403
404
405
406
407
408
409
410
411
412
413
414
415
<!DOCTYPE html>
<html lang="du">
<head>
<meta charset="utf-8"/>
<title>Big Data System Design</title>
<meta name="author" content="((link (:type mailto :path roelant.ossewaarde@hu.nl :format bracket :raw-link mailto:roelant.ossewaarde@hu.nl :application nil :search-option nil :begin 1 :end 57 :contents-begin 36 :contents-end 54 :post-blank 1 :parent #0) Roelant Ossewaarde) en  (link (:type mailto :path jos.vanreenen@hu.nl :format bracket :raw-link mailto:jos.vanreenen@hu.nl :application nil :search-option nil :begin 60 :end 106 :contents-begin 90 :contents-end 104 :post-blank 0 :parent #0) Jos van Reenen) , B 2019-2020)"/>
<style type="text/css">
.underline { text-decoration: underline; }
</style>
<link rel="stylesheet" href="./reveal.js/css/reveal.css"/>

<link rel="stylesheet" href="./reveal.js/css/theme/simple.css" id="theme"/>

<link rel="stylesheet" href="./personalization.css"/>

<!-- If the query includes 'print-pdf', include the PDF print sheet -->
<script>
    if( window.location.search.match( /print-pdf/gi ) ) {
        var link = document.createElement( 'link' );
        link.rel = 'stylesheet';
        link.type = 'text/css';
        link.href = './reveal.js/css/print/pdf.css';
        document.getElementsByTagName( 'head' )[0].appendChild( link );
    }
</script>
</head>
<body>
<div class="reveal">
<div class="slides">
<section id="sec-title-slide" data-background="images/huhl15.jpg"><h1>Big Data System Design</h1><h3>Tentamenvoorbereiding en losse eindjes</h3><p><small><a href="mailto:roelant.ossewaarde@hu.nl">Roelant Ossewaarde</a> en <a href="mailto:jos.vanreenen@hu.nl">Jos van Reenen</a>, B 2019-2020</small></p>
</section>

<section>
<section id="slide-orgc800edd">
<h2 id="orgc800edd"><span class="section-number-2">1</span> Oefententamen</h2>
<p>
Link naar socrative: <a href="http://socrative.com/">http://socrative.com/</a>, room: <b>ABE1A2CB</b>
</p>

</section>
</section>
<section>
<section id="slide-org1c87588">
<h2 id="org1c87588"><span class="section-number-2">2</span> Streaming processosrs - Kafka Stream</h2>

<div id="org3b87bc4" class="figure">
<p><img src="./images/kafka-apis.png" alt="kafka-apis.png" width="70%" style="border:2px solid black;" title="Kafka APIs" />
</p>
<p><span class="figure-number">Figure 1: </span>Kafka APIs</p>
</div>


</section>
<section id="slide-orgf5aa711">
<h3 id="orgf5aa711"><span class="section-number-3">2.1</span> Concepten van Apache Kafka</h3>
<ol>
<li>Een <b>event</b> (buiten de applicatie) genereert een <b>record</b> (de realtime data, binnen de applicatie). Een record is typisch een Key/Value-pair.</li>
<li>De key/value zijn een <b>topic</b> en de <b>data</b>. Door middel van het topic wordt het type data aangegeven.</li>
<li>Een <b>record</b> wordt bewaard door een <b>broker</b>. Ieder topic heeft zijn eigen <b>partition</b>.</li>
<li>Een Publish-subscribe-pattern:
<ol>
<li>Een <b>producer</b> genereert en stuurt (publishes) een record over een topic.</li>
<li>Een <b>consumer</b> luistert (subscribes) naar een topic.</li>

</ol></li>

</ol>

</section>
<section id="slide-org59b8823">
<h3 id="org59b8823"><span class="section-number-3">2.2</span> Topics en partitions</h3>

<div id="org4ba034b" class="figure">
<p><img src="./images/log_anatomy.png" alt="log_anatomy.png" width="40%" style="border:2px solid black;" title="Anatomy of a kafka-log" />
</p>
<p><span class="figure-number">Figure 2: </span>Anatomy of a kafka-log</p>
</div>


<p>
Een <b>partition</b> is een geordende, read-only reeks van records waar
steeds nieuwe informatie aan wordt toegevoegd. Binnen elke partition
worden records genummerd (de zgn. offset).
</p>

<p>
Een partition past op één machine. Maar een serie partities kan
horizontaal schalen over verschillende systemen.
</p>

</section>
<section id="slide-org060c9ba">
<h3 id="org060c9ba"><span class="section-number-3">2.3</span> Partitions hebben consumers en producers</h3>

<div id="org46a182c" class="figure">
<p><img src="./images/log_consumer.png" alt="log_consumer.png" width="80%" style="border:2px solid black;" title="Anatomy of a kafka-log - consumers" />
</p>
<p><span class="figure-number">Figure 3: </span>Anatomy of a kafka-log - consumers</p>
</div>


</section>
<section id="slide-org70d5f74">
<h3 id="org70d5f74"><span class="section-number-3">2.4</span> Consumers zijn georganiseerd in <b>consumer groups</b></h3>

<div id="org6044c46" class="figure">
<p><img src="./images/consumer-groups.png" alt="consumer-groups.png" width="50%" style="border:2px solid black;" title="Kafka-log - consumer groups" />
</p>
<p><span class="figure-number">Figure 4: </span>Kafka-log - consumer groups</p>
</div>


<p>
NB: Kafka kan records verspreiden als in een <a href="http://en.wikipedia.org/wiki/Message_queue">queue</a> of als in een
<a href="http://en.wikipedia.org/wiki/Publish%E2%80%93subscribe_pattern">publish-subscribe</a> pattern (zie <a href="https://dzone.com/articles/comparing-publish-subscribe-messaging-and-message">vergelijking)</a>.
</p>

</section>
<section id="slide-orgeeddd41">
<h3 id="orgeeddd41"><span class="section-number-3">2.5</span> Voorbeeld (abstract)</h3>

<div class="figure">
<p><object type="image/svg+xml" data="https://ci.apache.org/projects/flink/flink-docs-release-1.2/fig/parallel_dataflow.svg" class="org-svg">
Sorry, your browser does not support SVG.</object>
</p>
</div>

</section>
<section id="slide-orgeaf5c5f">
<h3 id="orgeaf5c5f"><span class="section-number-3">2.6</span> Voorbeeld: fraude-detectie van reviews, met batching</h3>

<div id="org89427b3" class="figure">
<p><img src="./images/kafka_case_a.png" alt="kafka_case_a.png" width="70%" style="border:2px solid black;" title="Kafka-log - batches" />
</p>
<p><span class="figure-number">Figure 6: </span>Kafka-log - case-study batching</p>
</div>

<p>
(<a href="https://medium.com/@stephane.maarek/how-to-use-apache-kafka-to-transform-a-batch-pipeline-into-a-real-time-one-831b48a6ad85">bron</a>)
</p>

</section>
<section id="slide-org2e9e6ae">
<h3 id="org2e9e6ae"><span class="section-number-3">2.7</span> Voorbeeld: fraude-detectie van reviews, met streams</h3>

<div id="org6fe0b62" class="figure">
<p><img src="./images/kafka_case_b.png" alt="kafka_case_b.png" width="70%" style="border:2px solid black;" title="Kafka-log - streaming" />
</p>
<p><span class="figure-number">Figure 7: </span>Kafka-log - case-study streaming</p>
</div>


</section>
<section id="slide-org0be2ade">
<h3 id="org0be2ade"><span class="section-number-3">2.8</span> Voorbeeld-applicatie van Kafka (mbv Kafka Streams)</h3>

<div id="org84654bf" class="figure">
<p><img src="./images/streams-table-updates.png" alt="streams-table-updates.png" width="60%" style="border:2px solid black;" title="Kafka-log - streaming" />
</p>
<p><span class="figure-number">Figure 8: </span>Kafka-log - case-study streaming (2)</p>
</div>


</section>
<section id="slide-orgf9f5583">
<h3 id="orgf9f5583"><span class="section-number-3">2.9</span> De analyse van data gebeurt soms op basis van eeen window</h3>
<p>
De data is dan opgespaard over een bepaalde tijd (x minuten) of een bepaalde hoeveelheid data (x events).
</p>

<p>
Er zijn verschillende typen windows:
</p>

<ol>
<li><b><b>Sliding</b></b> window: het window "beweegt" steeds maar een deel van de window-breedte. Bijvoorbeeld voor het berekenen van Moving Averages.</li>
<li><b><b>Tumbling</b></b> window: Het window "beweegt" zodat er geen overlap is tussen windows.</li>
<li><b><b>Session</b></b> window:: Het window staat steeds om data heen die bij elkaar horen.</li>

</ol>

</section>
<section id="slide-org52c1a75">
<h3 id="org52c1a75"><span class="section-number-3">2.10</span> De latest and greatest</h3>
<p>
Er zijn onlangs implementaties verschenen waarmee je SQL-achtige
statements kunt gebruiken om streaming data mee te bevragen. Zie
<a href="https://www.youtube.com/watch?v=YO95iAkwapQ">bijvoorbeeld deze video</a> voor een technische uitleg daarvan.
</p>

<p>
Als stream processor wordt tegenwoordig vaak <a href="https://flink.apache.org/">Apache Flink</a>
gebruikt. Dat is dus het framework dat de consumer en producer API's
(van bijvoorbeeld Kafka) aan elkaar knoopt. Flink is een
gedistribueerd framework.
</p>

</section>
</section>
<section>
<section id="slide-org46bdc84">
<h2 id="org46bdc84"><span class="section-number-2">3</span> Parallelisme</h2>
<p>
Een probleem met het traditionele model van computers: <b>Von Neumann bottleneck</b>.
</p>


<div id="org8de2bd6" class="figure">
<p><img src="./images/vonneumann2.png" alt="vonneumann2.png" width="90%" style="border:2px solid white;" title="Von Neumann architectuur" />
</p>
<p><span class="figure-number">Figure 9: </span>Von Neumann architectuur</p>
</div>

<p>
Processor en memory zitten aan weerskanten van een langzame geheugenbus. Instructies en data gaan via bus tussen processor en geheugen.
</p>

</section>
<section id="slide-orge17358c">
<h3 id="orge17358c"><span class="section-number-3">3.1</span> CPU en memory innoveren niet op hetzelfde tempo</h3>

<div id="orgcf54cfd" class="figure">
<p><img src="./images/vonneumann3.png" alt="vonneumann3.png" width="50%" style="border:2px solid white;" title="Von Neumann architectuur" />
</p>
<p><span class="figure-number">Figure 10: </span>CPU verbetert veel sneller dan geheugen</p>
</div>

<p>
CPU's kunnen nauwelijks sneller worden zonder enorme <a href="https://physics.stackexchange.com/questions/34766/how-does-power-consumption-vary-with-the-processor-frequency-in-a-typical-comput">toename in energieverbruik</a> (en zie ook <a href="https://www.comsol.com/blogs/havent-cpu-clock-speeds-increased-last-years/">hier</a>). De aandacht is verschoven naar <b>multicore</b> machines.
</p>

</section>
<section id="slide-orge80a95d">
<h3 id="orge80a95d"><span class="section-number-3">3.2</span> Parallele architecturen kunnen misschien helpen</h3>
<p>
Verschillende vormen van parallel dataverwerken:
</p>

<ol>
<li><b><b>Data parallelism</b></b>: Data wordt verspreid over verschillende computers. Elke computer heeft eigen CPU en geheugen.
<ul>
<li>Voorbeelden: Map/Reduce architectuur; bitcoin mining op GPU's; geavanceerde gaming setups.</li>

</ul></li>
<li><b><b>Task parallelism</b></b>: Data in een centraal geheugen. Verschillende processoren benaderen
<ul>
<li>Voorbeeld: multicore machines</li>

</ul></li>
<li><b><b>Pipeline parallelism</b></b>: Hybride vorm: verschillende delen werken elk aan een onderdeel van het probleem.
<ul>
<li>Voorbeeld: verdeling van werk bij opbouwen geavanceerde graphics; lopende bandwerk in een fabriek.</li>

</ul></li>

</ol>

</section>
<section id="slide-orgc19a244">
<h3 id="orgc19a244"><span class="section-number-3">3.3</span> Parallele architecturen kunnen misschien helpen</h3>
<p>
Verschillende vormen van parallel dataverwerken:
</p>

<p>
<b><b>Data parallelism</b></b>: Data wordt verspreid over verschillende computers. Elke computer heeft eigen CPU en geheugen.
</p>
<ul>
<li>Voorbeelden: Map/Reduce architectuur; bitcoin mining op GPU's; geavanceerde gaming setups.</li>

</ul>

<p>
<b><b>Task parallelism</b></b>: Data in een centraal geheugen. Verschillende processoren benaderen
</p>
<ul>
<li>Voorbeeld: multicore machines</li>

</ul>

<p>
<b><b>Pipeline parallelism</b></b>: Hybride vorm: verschillende delen werken elk aan een onderdeel van het probleem.
</p>
<ul>
<li>Voorbeeld: verdeling van werk bij opbouwen geavanceerde graphics; lopende bandwerk in een fabriek.</li>

</ul>


</section>
<section id="slide-org14fbd3b">
<h4 id="org14fbd3b"><span class="section-number-4">3.3.1</span> Data parallelism.</h4>

<div id="orgdec70d3" class="figure">
<p><img src="./images/dataparallelism.png" alt="dataparallelism.png" width="50%" style="border:2px solid white;" title="Data parallelism" />
</p>
<p><span class="figure-number">Figure 11: </span>In data parallelism werkt iedere CPU met een eigen stuk data.</p>
</div>

<p>
Voorbeeld-probleem: vertaal alle karakters naar upper-case.
</p>

<p>
Probleem-eigenschappen:
</p>
<ol>
<li>De data kan verdeeld worden, er is geen onderlinge afhankelijkheid van de data.</li>
<li>Iedere taak kan zelfstandig uitgevoerd worden.</li>

</ol>

</section>
<section id="slide-orgad451f4">
<h4 id="orgad451f4"><span class="section-number-4">3.3.2</span> Task parallelism.</h4>

<div id="orge2e0d1e" class="figure">
<p><img src="./images/taskparallelism.png" alt="taskparallelism.png" width="50%" style="border:2px solid white;" title="Task parallelism" />
</p>
<p><span class="figure-number">Figure 12: </span>In task parallelism werken meerdere CPUs aan dexelfde data.</p>
</div>

<p>
Voorbeeld-probleem: bereken het gemiddelde en minimum en maximum van een set getallen.
</p>

<p>
Probleem-eigenschappen:
</p>
<ol>
<li>De data kan alleen als set in het geheel benaderd worden. Bijv: gemiddelde is een eigenschap van de hele dataset.</li>
<li>Elke taak afzonderlijk (gemiddelde, minimum, maximum) kan zelfstandig uitgevoerd worden.</li>

</ol>

</section>
<section id="slide-org4db9eaf">
<h4 id="org4db9eaf"><span class="section-number-4">3.3.3</span> Pipeline parallelism.</h4>

<div id="org4f9bef0" class="figure">
<p><img src="./images/pipelineparallelism.png" alt="pipelineparallelism.png" width="60%" style="border:2px solid white;" title="Pipeline parallelism" />
</p>
<p><span class="figure-number">Figure 13: </span>In pipeline parallelism wordt een probleem stapsgewijs verdeeld.</p>
</div>

<p>
Voorbeeld-probleem: toepassen van serie bewerkingen op een set plaatjes.
</p>

<p>
Probleem-eigenschappen:
</p>
<ol>
<li>De data vereist verschillende bewerkingen.</li>
<li>Iedere bewerking kan zelfstandig uitgevoerd worden.</li>

</ol>

</section>
<section id="slide-org84b0449">
<h3 id="org84b0449"><span class="section-number-3">3.4</span> Alternatieven voor computerarchitectuur</h3>

<div id="orgd3f054c" class="figure">
<p><img src="./images/newarchitectures.png" alt="newarchitectures.png" width="50%" style="border:2px solid white;" title="Alternatieve architecturen" />
</p>
<p><span class="figure-number">Figure 14: </span>Varianten van het Von Neumann model</p>
</div>


</section>
</section>
<section>
<section id="slide-orgd5a4f3c">
<h2 id="orgd5a4f3c"><span class="section-number-2">4</span> Programma</h2>
<p>
Aanstaande vrijdag:
</p>

<ol>
<li>We bespeken assignments 1 en 2.</li>
<li>We doen voor hoe je importeert in Kafka, Flink en Spark.</li>

</ol>
</section>
</section>
</div>
</div>
<script src="./reveal.js/js/reveal.js"></script>

<script>
// Full list of configuration options available here:
// https://github.com/hakimel/reveal.js#configuration
Reveal.initialize({
slideNumber:true,
width:"80%",
height:"100%",
multiplex: {
    secret: '', // null if client
    id: '', // id, obtained from socket.io server
    url: '' // Location of socket.io server
},

// Optional libraries used to extend on reveal.js
dependencies: [
{ src: 'reveal.js/plugin/reveald3.js', async: true }, { src: 'plugin/quiz/js/quiz.js', async: true, callback: function() { prepareQuizzes({}); } }, { src: 'reveal.js/plugin/highlight/highlight.js', async: true },
 { src: './reveal.js/lib/js/classList.js', condition: function() { return !document.body.classList; } },
 { src: './reveal.js/plugin/markdown/marked.js', condition: function() { return !!document.querySelector( '[data-markdown]' ); } },
 { src: './reveal.js/plugin/markdown/markdown.js', condition: function() { return !!document.querySelector( '[data-markdown]' ); } },
 { src: './reveal.js/plugin/zoom-js/zoom.js', async: true, condition: function() { return !!document.body.classList; } },
 { src: './reveal.js/plugin/notes/notes.js', async: true, condition: function() { return !!document.body.classList; } }]
});
</script>
</body>
</html>