Skip to content

Commit f5085db

Browse files
committed
Initial commit
Add initial wordlists and update README file.
0 parents  commit f5085db

File tree

6 files changed

+163519
-0
lines changed

6 files changed

+163519
-0
lines changed

LICENSE

Lines changed: 674 additions & 0 deletions
Large diffs are not rendered by default.

README.md

Lines changed: 58 additions & 0 deletions
Original file line numberDiff line numberDiff line change
@@ -0,0 +1,58 @@
1+
# Bulgarian wordlists
2+
Това хранилище съдържа архивирани файлове със думи и имена на български език както и единни граждански номера. Всичката информация в това хранилище е събрана от публични данни, а номерата са генерирани и валидирани използвайки алгоритъм. Използването на предоставената информация е на своя собствена отговорност.
3+
4+
## Съдържание
5+
* [Начало](#Bulgarian-wordlists)
6+
* [Съдържание](#Съдържание)
7+
* [Какво е wordlist?](#Какво-е-wordlist?)
8+
* [Списъци](#списъци)
9+
* [Думи](#думи)
10+
* [Имена](#имена)
11+
* [ЕГН](#егн)
12+
* [Населени места](#населени-места)
13+
* [TO DO](#to-do)
14+
15+
## Какво е wordlist?
16+
Това е списък с думи или номера в редактируем текстов файл, обикновено по една на ред. Имат най-различна употреба от системи за валидиране на очаквани входящи данни до речникова атака (dictionary attack) срещу уеб или настолни приложения.
17+
18+
## Списъци
19+
Списъците съдържат думи на кирилица с малки букви (lowercase) подредени азбучно в текстови файлове с UTF-8 енкодинг.
20+
21+
Изтегляне на всички думи: [all.txt](https://github.com/miglen/bulgarian-wordlists/blob/master/wordlists/all.txt?raw=true)
22+
23+
### Думи
24+
Списък с думи на български език, без различни форми и времена за сега.
25+
26+
Източници: [grammar-bg](https://github.com/vanyog/grammar-bg)
27+
28+
Изтегляне: [bulgarian-words.txt](https://github.com/miglen/bulgarian-wordlists/blob/master/wordlists/bulgarian-words.txt?raw=true) *(72797 записа)*
29+
30+
### Имена
31+
Списък с имена на български език. Списъка е подреден в един файл с всички налични имена от източника.
32+
33+
Източници: http://stratsimir.exsisto.com/
34+
35+
Изтегляне: [bulgarian-names.txt](https://github.com/miglen/bulgarian-wordlists/blob/master/wordlists/bulgarian-names.txt?raw=true) *(5506 записа)*
36+
37+
### Единен граждански номер (ЕГН)
38+
Списък с единни граждански номера на български граждани. Списъка е подреден в отделни файлове по години, както и файл със всички възможни валидни номера.
39+
Източници: Генерирани номера от 1800г. до 2100г. и валидирани спрямо алгоритъма на ГРАО - ЕСРАГОН.
40+
41+
Изтегляне: [Всички в един файл - egn.zip](https://github.com/miglen/bulgarian-wordlists/releases/download/v1.0/egn.zip) или [Файлове по години - egn.zip](https://github.com/miglen/bulgarian-wordlists/releases/download/v1.0/egn-by-years.zip) *(109 млрд. записа)*
42+
43+
### Населени места
44+
Списък с имената на населените места в България.
45+
46+
Източници: [Национален Статистически Институт](www.nsi.bg/nrnm)
47+
48+
Изтегляне: [bulgarian-geo.txt](https://raw.githubusercontent.com/miglen/bulgarian-wordlists/master/wordlists/bulgarian-geo.txt) *(4657 записа)*
49+
50+
### TO DO
51+
* Конвертиране на имената в:
52+
* Транслитерация на латиница
53+
* Шльокавица
54+
* Думи - добавяне на всички думи на български език както и категории. Потенциален източник: [анализ на думите в Уикипедия](http://nikolay.it/Blog/2011/08/%D0%90%D0%BD%D0%B0%D0%BB%D0%B8%D0%B7-%D0%BD%D0%B0-%D0%B1%D1%8A%D0%BB%D0%B3%D0%B0%D1%80%D1%81%D0%BA%D0%B8%D1%8F-%D0%B5%D0%B7%D0%B8%D0%BA-%D1%87%D1%80%D0%B5%D0%B7-Wikipedia/3)
55+
* Старобългарски
56+
* Неологизми
57+
* Диалектни
58+
* Генериране на ЕГН-та за години, полове и региони.

0 commit comments

Comments
 (0)