|
| 1 | +# နိဒါန်း[[introduction]] |
| 2 | + |
| 3 | +<CourseFloatingBanner |
| 4 | + chapter={5} |
| 5 | + classNames="absolute z-10 right-0 top-0" |
| 6 | +/> |
| 7 | + |
| 8 | +[Chapter 3](/course/chapter3) မှာ သင်ဟာ 🤗 Datasets library ရဲ့ ပထမဆုံး အတွေ့အကြုံကို ရရှိခဲ့ပြီး model တစ်ခုကို fine-tuning လုပ်တဲ့အခါ အဓိကအဆင့်သုံးဆင့်ရှိတယ်ဆိုတာကို တွေ့မြင်ခဲ့ရပါတယ်- |
| 9 | + |
| 10 | +၁။ Hugging Face Hub ကနေ dataset တစ်ခုကို load လုပ်ပါ။ |
| 11 | +၂။ `Dataset.map()` နဲ့ data ကို preprocess လုပ်ပါ။ |
| 12 | +၃။ metrics တွေကို load လုပ်ပြီး တွက်ချက်ပါ။ |
| 13 | + |
| 14 | +ဒါပေမယ့် ဒါတွေဟာ 🤗 Datasets လုပ်နိုင်တဲ့အရာတွေရဲ့ အပေါ်ယံမျှသာ ရှိပါသေးတယ်။ ဒီအခန်းမှာ၊ ကျွန်တော်တို့ library ကို နက်နက်နဲနဲ လေ့လာသွားမှာပါ။ ဒီလိုလုပ်ရင်း၊ အောက်ပါမေးခွန်းတွေရဲ့ အဖြေတွေကို ရှာဖွေသွားမှာပါ- |
| 15 | + |
| 16 | +* သင်၏ dataset က Hub ပေါ်မှာ မရှိရင် ဘာလုပ်ရမလဲ။ |
| 17 | +* dataset တစ်ခုကို ဘယ်လို slice and dice လုပ်မလဲ။ (ပြီးတော့ Pandas ကို _တကယ်_ အသုံးပြုဖို့ လိုအပ်ရင် ဘယ်လိုလုပ်မလဲ။) |
| 18 | +* သင်၏ dataset က ကြီးမားလွန်းပြီး သင့် laptop ရဲ့ RAM ကို အရည်ပျော်သွားစေနိုင်ရင် ဘာလုပ်ရမလဲ။ |
| 19 | +* "memory mapping" နဲ့ Apache Arrow ဆိုတာ ဘာတွေလဲ။ |
| 20 | +* သင့်ကိုယ်ပိုင် dataset ကို ဘယ်လိုဖန်တီးပြီး Hub ကို push လုပ်မလဲ။ |
| 21 | + |
| 22 | +ဒီနေရာမှာ သင်ယူရမယ့် နည်းလမ်းတွေက [Chapter 6](/course/chapter6) နဲ့ [Chapter 7](/course/chapter7) မှာ ပါဝင်မယ့် အဆင့်မြင့် tokenization နဲ့ fine-tuning လုပ်ငန်းတွေအတွက် သင့်ကို ပြင်ဆင်ပေးပါလိမ့်မယ် — ဒါကြောင့် ကော်ဖီတစ်ခွက်သောက်ပြီး စလိုက်ရအောင်! |
| 23 | + |
| 24 | +## ဝေါဟာရ ရှင်းလင်းချက် (Glossary) |
| 25 | + |
| 26 | +* **🤗 Datasets Library**: Hugging Face က ထုတ်လုပ်ထားတဲ့ library တစ်ခုဖြစ်ပြီး AI မော်ဒယ်တွေ လေ့ကျင့်ဖို့အတွက် ဒေတာအစုအဝေး (datasets) တွေကို လွယ်လွယ်ကူကူ ဝင်ရောက်ရယူ၊ စီမံခန့်ခွဲပြီး အသုံးပြုနိုင်စေပါတယ်။ |
| 27 | +* **Fine-tuning**: ကြိုတင်လေ့ကျင့်ထားပြီးသား (pre-trained) မော်ဒယ်တစ်ခုကို သီးခြားလုပ်ငန်းတစ်ခု (specific task) အတွက် အနည်းငယ်သော ဒေတာနဲ့ ထပ်မံလေ့ကျင့်ပေးခြင်းကို ဆိုလိုပါတယ်။ |
| 28 | +* **Model**: Artificial Intelligence (AI) နယ်ပယ်တွင် အချက်အလက်များကို လေ့လာပြီး ခန့်မှန်းချက်များ ပြုလုပ်ရန် ဒီဇိုင်းထုတ်ထားသော သင်္ချာဆိုင်ရာဖွဲ့စည်းပုံများ။ |
| 29 | +* **Hugging Face Hub**: AI မော်ဒယ်တွေ၊ datasets တွေနဲ့ demo တွေကို အခြားသူတွေနဲ့ မျှဝေဖို့၊ ရှာဖွေဖို့နဲ့ ပြန်လည်အသုံးပြုဖို့အတွက် အွန်လိုင်း platform တစ်ခု ဖြစ်ပါတယ်။ |
| 30 | +* **Dataset**: AI မော်ဒယ်တွေ လေ့ကျင့်ဖို့အတွက် အသုံးပြုတဲ့ ဒေတာအစုအဝေးတစ်ခုပါ။ |
| 31 | +* **Preprocess**: ဒေတာများကို model က နားလည်ပြီး လုပ်ဆောင်နိုင်တဲ့ ပုံစံအဖြစ် ပြောင်းလဲပြင်ဆင်ခြင်း လုပ်ငန်းစဉ်။ |
| 32 | +* **`Dataset.map()`**: 🤗 Datasets library မှာ ပါဝင်တဲ့ method တစ်ခုဖြစ်ပြီး dataset ရဲ့ element တစ်ခုစီ ဒါမှမဟုတ် batch တစ်ခုစီပေါ်မှာ function တစ်ခုကို အသုံးပြုနိုင်စေသည်။ |
| 33 | +* **Metrics**: Model ၏ စွမ်းဆောင်ရည်ကို တိုင်းတာရန် အသုံးပြုသော တန်ဖိုးများ (ဥပမာ- accuracy, F1 score)။ |
| 34 | +* **Slice and Dice**: ဒေတာအစုအဝေး (dataset) ကို လိုအပ်သလို အစိတ်စိတ်အမြွှာမြွှာ ပိုင်းဖြတ်ခြင်းနှင့် ပုံစံပြောင်းလဲခြင်း။ |
| 35 | +* **Pandas**: Python programming language အတွက် data analysis နှင့် manipulation အတွက် အသုံးပြုသော open-source library။ |
| 36 | +* **RAM (Random Access Memory)**: ကွန်ပျူတာ၏ ယာယီမှတ်ဉာဏ်သိုလှောင်ရာနေရာ။ |
| 37 | +* **Memory Mapping**: ဖိုင်တစ်ခု၏ အကြောင်းအရာများကို ကွန်ပျူတာ၏ virtual memory နေရာသို့ တိုက်ရိုက်ချိတ်ဆက်ပေးသည့် နည်းလမ်း။ ၎င်းသည် ကြီးမားသောဖိုင်များကို disk ပေါ်ကနေ လိုအပ်သလောက်သာ memory ထဲသို့ load လုပ်စေပြီး memory အသုံးပြုမှုကို လျှော့ချသည်။ |
| 38 | +* **Apache Arrow**: In-memory data format တစ်ခုဖြစ်ပြီး data analytics applications တွေကြား ဒေတာဖလှယ်မှုကို မြန်ဆန်စေပြီး ထိရောက်စေသည်။ |
| 39 | +* **Push to the Hub**: Hugging Face Hub သို့ model, dataset သို့မဟုတ် အခြား artifacts များကို upload လုပ်ခြင်း။ |
| 40 | +* **Tokenization**: စာသား (သို့မဟုတ် အခြားဒေတာ) ကို AI မော်ဒယ်များ စီမံဆောင်ရွက်နိုင်ရန် tokens တွေအဖြစ် ပိုင်းခြားပေးသည့် လုပ်ငန်းစဉ်။ |
0 commit comments