Skip to content

Commit 1ec68a5

Browse files
authored
Merge pull request #1104 from kalixlouiis/my-chapter5-translation
feat(my): Add Myanmar translation for Chapter 5 and per-chapter Glossary
2 parents 0ae5710 + a768b2e commit 1ec68a5

File tree

9 files changed

+2785
-19
lines changed

9 files changed

+2785
-19
lines changed

chapters/my/_toctree.yml

Lines changed: 19 additions & 19 deletions
Original file line numberDiff line numberDiff line change
@@ -85,25 +85,25 @@
8585
title: အခန်း (၄) ဆိုင်ရာ မေးခွန်းများ
8686
quiz: 4
8787

88-
# - title: 5. The 🤗 Datasets library
89-
# sections:
90-
# - local: chapter5/1
91-
# title: Introduction
92-
# - local: chapter5/2
93-
# title: What if my dataset isn't on the Hub?
94-
# - local: chapter5/3
95-
# title: Time to slice and dice
96-
# - local: chapter5/4
97-
# title: Big data? 🤗 Datasets to the rescue!
98-
# - local: chapter5/5
99-
# title: Creating your own dataset
100-
# - local: chapter5/6
101-
# title: Semantic search with FAISS
102-
# - local: chapter5/7
103-
# title: 🤗 Datasets, check!
104-
# - local: chapter5/8
105-
# title: End-of-chapter quiz
106-
# quiz: 5
88+
- title: 5. The 🤗 Datasets library
89+
sections:
90+
- local: chapter5/1
91+
title: နိဒါန်း
92+
- local: chapter5/2
93+
title: ကျွန်ုပ်၏ Dataset သည် Hub တွင် မရှိလျှင် ဘာလုပ်ရမလဲ။
94+
- local: chapter5/3
95+
title: Slice and Dice လုပ်ဖို့ အချိန်တန်ပြီ။
96+
- local: chapter5/4
97+
title: Big Data လား။ 🤗 Datasets က ကူညီပါလိမ့်မယ်။
98+
- local: chapter5/5
99+
title: ကိုယ်ပိုင် Dataset တစ်ခု ဖန်တီးခြင်း
100+
- local: chapter5/6
101+
title: FAISS ဖြင့် Semantic Search ပြုလုပ်ခြင်း
102+
- local: chapter5/7
103+
title: 🤗 Datasets၊ အဆင်သင့်ဖြစ်ပါပြီ!
104+
- local: chapter5/8
105+
title: အခန်း (၅) ဆိုင်ရာ မေးခွန်းများ
106+
quiz: 5
107107

108108
# - title: 6. The 🤗 Tokenizers library
109109
# sections:

chapters/my/chapter5/1.mdx

Lines changed: 40 additions & 0 deletions
Original file line numberDiff line numberDiff line change
@@ -0,0 +1,40 @@
1+
# နိဒါန်း[[introduction]]
2+
3+
<CourseFloatingBanner
4+
chapter={5}
5+
classNames="absolute z-10 right-0 top-0"
6+
/>
7+
8+
[Chapter 3](/course/chapter3) မှာ သင်ဟာ 🤗 Datasets library ရဲ့ ပထမဆုံး အတွေ့အကြုံကို ရရှိခဲ့ပြီး model တစ်ခုကို fine-tuning လုပ်တဲ့အခါ အဓိကအဆင့်သုံးဆင့်ရှိတယ်ဆိုတာကို တွေ့မြင်ခဲ့ရပါတယ်-
9+
10+
၁။ Hugging Face Hub ကနေ dataset တစ်ခုကို load လုပ်ပါ။
11+
၂။ `Dataset.map()` နဲ့ data ကို preprocess လုပ်ပါ။
12+
၃။ metrics တွေကို load လုပ်ပြီး တွက်ချက်ပါ။
13+
14+
ဒါပေမယ့် ဒါတွေဟာ 🤗 Datasets လုပ်နိုင်တဲ့အရာတွေရဲ့ အပေါ်ယံမျှသာ ရှိပါသေးတယ်။ ဒီအခန်းမှာ၊ ကျွန်တော်တို့ library ကို နက်နက်နဲနဲ လေ့လာသွားမှာပါ။ ဒီလိုလုပ်ရင်း၊ အောက်ပါမေးခွန်းတွေရဲ့ အဖြေတွေကို ရှာဖွေသွားမှာပါ-
15+
16+
* သင်၏ dataset က Hub ပေါ်မှာ မရှိရင် ဘာလုပ်ရမလဲ။
17+
* dataset တစ်ခုကို ဘယ်လို slice and dice လုပ်မလဲ။ (ပြီးတော့ Pandas ကို _တကယ်_ အသုံးပြုဖို့ လိုအပ်ရင် ဘယ်လိုလုပ်မလဲ။)
18+
* သင်၏ dataset က ကြီးမားလွန်းပြီး သင့် laptop ရဲ့ RAM ကို အရည်ပျော်သွားစေနိုင်ရင် ဘာလုပ်ရမလဲ။
19+
* "memory mapping" နဲ့ Apache Arrow ဆိုတာ ဘာတွေလဲ။
20+
* သင့်ကိုယ်ပိုင် dataset ကို ဘယ်လိုဖန်တီးပြီး Hub ကို push လုပ်မလဲ။
21+
22+
ဒီနေရာမှာ သင်ယူရမယ့် နည်းလမ်းတွေက [Chapter 6](/course/chapter6) နဲ့ [Chapter 7](/course/chapter7) မှာ ပါဝင်မယ့် အဆင့်မြင့် tokenization နဲ့ fine-tuning လုပ်ငန်းတွေအတွက် သင့်ကို ပြင်ဆင်ပေးပါလိမ့်မယ် — ဒါကြောင့် ကော်ဖီတစ်ခွက်သောက်ပြီး စလိုက်ရအောင်!
23+
24+
## ဝေါဟာရ ရှင်းလင်းချက် (Glossary)
25+
26+
* **🤗 Datasets Library**: Hugging Face က ထုတ်လုပ်ထားတဲ့ library တစ်ခုဖြစ်ပြီး AI မော်ဒယ်တွေ လေ့ကျင့်ဖို့အတွက် ဒေတာအစုအဝေး (datasets) တွေကို လွယ်လွယ်ကူကူ ဝင်ရောက်ရယူ၊ စီမံခန့်ခွဲပြီး အသုံးပြုနိုင်စေပါတယ်။
27+
* **Fine-tuning**: ကြိုတင်လေ့ကျင့်ထားပြီးသား (pre-trained) မော်ဒယ်တစ်ခုကို သီးခြားလုပ်ငန်းတစ်ခု (specific task) အတွက် အနည်းငယ်သော ဒေတာနဲ့ ထပ်မံလေ့ကျင့်ပေးခြင်းကို ဆိုလိုပါတယ်။
28+
* **Model**: Artificial Intelligence (AI) နယ်ပယ်တွင် အချက်အလက်များကို လေ့လာပြီး ခန့်မှန်းချက်များ ပြုလုပ်ရန် ဒီဇိုင်းထုတ်ထားသော သင်္ချာဆိုင်ရာဖွဲ့စည်းပုံများ။
29+
* **Hugging Face Hub**: AI မော်ဒယ်တွေ၊ datasets တွေနဲ့ demo တွေကို အခြားသူတွေနဲ့ မျှဝေဖို့၊ ရှာဖွေဖို့နဲ့ ပြန်လည်အသုံးပြုဖို့အတွက် အွန်လိုင်း platform တစ်ခု ဖြစ်ပါတယ်။
30+
* **Dataset**: AI မော်ဒယ်တွေ လေ့ကျင့်ဖို့အတွက် အသုံးပြုတဲ့ ဒေတာအစုအဝေးတစ်ခုပါ။
31+
* **Preprocess**: ဒေတာများကို model က နားလည်ပြီး လုပ်ဆောင်နိုင်တဲ့ ပုံစံအဖြစ် ပြောင်းလဲပြင်ဆင်ခြင်း လုပ်ငန်းစဉ်။
32+
* **`Dataset.map()`**: 🤗 Datasets library မှာ ပါဝင်တဲ့ method တစ်ခုဖြစ်ပြီး dataset ရဲ့ element တစ်ခုစီ ဒါမှမဟုတ် batch တစ်ခုစီပေါ်မှာ function တစ်ခုကို အသုံးပြုနိုင်စေသည်။
33+
* **Metrics**: Model ၏ စွမ်းဆောင်ရည်ကို တိုင်းတာရန် အသုံးပြုသော တန်ဖိုးများ (ဥပမာ- accuracy, F1 score)။
34+
* **Slice and Dice**: ဒေတာအစုအဝေး (dataset) ကို လိုအပ်သလို အစိတ်စိတ်အမြွှာမြွှာ ပိုင်းဖြတ်ခြင်းနှင့် ပုံစံပြောင်းလဲခြင်း။
35+
* **Pandas**: Python programming language အတွက် data analysis နှင့် manipulation အတွက် အသုံးပြုသော open-source library။
36+
* **RAM (Random Access Memory)**: ကွန်ပျူတာ၏ ယာယီမှတ်ဉာဏ်သိုလှောင်ရာနေရာ။
37+
* **Memory Mapping**: ဖိုင်တစ်ခု၏ အကြောင်းအရာများကို ကွန်ပျူတာ၏ virtual memory နေရာသို့ တိုက်ရိုက်ချိတ်ဆက်ပေးသည့် နည်းလမ်း။ ၎င်းသည် ကြီးမားသောဖိုင်များကို disk ပေါ်ကနေ လိုအပ်သလောက်သာ memory ထဲသို့ load လုပ်စေပြီး memory အသုံးပြုမှုကို လျှော့ချသည်။
38+
* **Apache Arrow**: In-memory data format တစ်ခုဖြစ်ပြီး data analytics applications တွေကြား ဒေတာဖလှယ်မှုကို မြန်ဆန်စေပြီး ထိရောက်စေသည်။
39+
* **Push to the Hub**: Hugging Face Hub သို့ model, dataset သို့မဟုတ် အခြား artifacts များကို upload လုပ်ခြင်း။
40+
* **Tokenization**: စာသား (သို့မဟုတ် အခြားဒေတာ) ကို AI မော်ဒယ်များ စီမံဆောင်ရွက်နိုင်ရန် tokens တွေအဖြစ် ပိုင်းခြားပေးသည့် လုပ်ငန်းစဉ်။

0 commit comments

Comments
 (0)