Skip to content

Commit 23602e5

Browse files
committed
Обновлена документация
1 parent dc11bef commit 23602e5

File tree

2 files changed

+166
-5
lines changed

2 files changed

+166
-5
lines changed

docs/datasets/sovchlit.md

Lines changed: 162 additions & 1 deletion
Original file line numberDiff line numberDiff line change
@@ -1 +1,162 @@
1-
# Наборы данных
1+
# Советские христоматии (литература)
2+
3+
!!! info ""
4+
**ruts.datasets.SovChLit**
5+
6+
## Описание
7+
8+
Модуль для работы с набором данных советских хрестоматий по литературе.
9+
10+
Для формирования набора данных используются оцифрованные издания проекта ["Школьные учебники СССР"](https://sheba.spb.ru/shkola/):
11+
12+
* Родная речь. Книга для чтения в I классе начальной школы. Е.Е. Соловьева, Л.А. Карпинская, Н.Н. Щепетова
13+
14+
## Параметры
15+
16+
| Параметр | Тип | По умолчанию | Описание |
17+
| :------: | :-: | :----------: | :------: |
18+
| `data_dir` | str | `DEFAULT_DATA_DIR.joinpath("texts")` | Путь к директории с набором данных |
19+
20+
## Атрибуты
21+
22+
| Атрибут | Тип | Описание |
23+
| :-----: | :-: | :------: |
24+
| `labels` | tuple[str] | Кортеж уровней сложности текстов |
25+
26+
## Методы
27+
28+
### download
29+
30+
Выполняет загрузку набора данных из сети и извлечение файлов.
31+
32+
Параметры:
33+
34+
| Параметр | Тип | По умолчанию | Описание |
35+
| :------: | :-: | :----------: | :------: |
36+
| `force` | bool | `-` | Загрузить набор данных, даже если он уже загружен |
37+
38+
Рассмотрим пример загрузки набора данных и вывод информации о нем:
39+
40+
!!! example "Пример"
41+
42+
_Код_:
43+
44+
``` python
45+
# Загрузка библиотек
46+
from ruts.datasets import SovChLit
47+
48+
# Создание объекта набора данных
49+
sc = SovChLit(data_dir='.')
50+
51+
# Загрузка набора данных
52+
sc.download(force=True)
53+
54+
# Отображение информации о наборе данных
55+
sc.info
56+
```
57+
58+
_Результат_:
59+
60+
``` bash
61+
{'description': 'Корпус советских хрестоматий по литературе',
62+
'url': 'https://dataverse.harvard.edu/file.xhtml?fileId=3670902&version=DRAFT',
63+
'Наименование': 'sov_chrest_lit'}
64+
```
65+
66+
### get_texts
67+
68+
Выполняет извлечение текстов (без заголовков) из набора данных.
69+
70+
Параметры:
71+
72+
| Параметр | Тип | По умолчанию | Описание |
73+
| :------: | :-: | :----------: | :------: |
74+
| `grade` | int | `-` | Уровень сложности текстов |
75+
| `book` | str | `-` | Наименование книги |
76+
| `year` | int | `-` | Год издания книги |
77+
| `category` | str | `-` | Категория текстов |
78+
| `text_type` | str | `-` | Тип текстов |
79+
| `subject` | str | `-` | Наименование текстов |
80+
| `author` | str | `-` | Автор текстов|
81+
| `min_len` | int | `-` | Минимальная длина текста (в символах) |
82+
| `max_len` | int | `-` | Максимальная длина текста (в символах) |
83+
| `limit` | int | `-` | Количество текстов |
84+
85+
Рассмотрим пример извлечения текстов из набора данных, выбрав только 1 текст из категории "Весна" длиной не более 100 символов:
86+
87+
!!! example "Пример"
88+
89+
_Код_:
90+
91+
``` python
92+
# Загрузка библиотек
93+
from ruts.datasets import SovChLit
94+
95+
# Создание объекта набора данных
96+
sc = SovChLit()
97+
98+
# Отображение извлеченных текстов
99+
for i in sc.get_texts(max_len=100, category='Весна', limit=1):
100+
print(i)
101+
```
102+
103+
_Результат_:
104+
105+
``` bash
106+
В марте курочка под порожком водицы напьётся.
107+
Март с водой, апрель с травой.
108+
В апреле земля преет.
109+
```
110+
111+
### get_records
112+
113+
Выполняет извлечение записей (с заголовками) из набора данных.
114+
115+
Параметры:
116+
117+
| Параметр | Тип | По умолчанию | Описание |
118+
| :------: | :-: | :----------: | :------: |
119+
| `grade` | int | `-` | Уровень сложности текстов |
120+
| `book` | str | `-` | Наименование книги |
121+
| `year` | int | `-` | Год издания книги |
122+
| `category` | str | `-` | Категория текстов |
123+
| `text_type` | str | `-` | Тип текстов |
124+
| `subject` | str | `-` | Наименование текстов |
125+
| `author` | str | `-` | Автор текстов|
126+
| `min_len` | int | `-` | Минимальная длина текста (в символах) |
127+
| `max_len` | int | `-` | Максимальная длина текста (в символах) |
128+
| `limit` | int | `-` | Количество текстов |
129+
130+
Рассмотрим пример извлечения записей из набора данных, выбрав только 1 запись из категории "Весна" длиной не более 100 символов:
131+
132+
!!! example "Пример"
133+
134+
_Код_:
135+
136+
``` python
137+
# Загрузка библиотек
138+
from ruts.datasets import SovChLit
139+
140+
# Создание объекта набора данных
141+
sc = SovChLit()
142+
143+
# Отображение извлеченных текстов
144+
for i in sc.get_records(max_len=100, category='Весна', limit=1):
145+
print(i)
146+
```
147+
148+
_Результат_:
149+
150+
``` bash
151+
{'author': 'Е. Трутнева',
152+
'book': 'Родная речь. Книга для чтения в I классе начальной школы',
153+
'category': 'Весна',
154+
'file': PosixPath('../ruTS/ruts_data/texts/sov_chrest_lit/grade_1/155'),
155+
'grade': 1,
156+
'subject': 'Дождик',
157+
'text': 'В марте курочка под порожком водицы напьётся.\n'
158+
'В марте курочка под порожком водицы напьётся.\n'
159+
'В апреле земля преет.',
160+
'type': 'Стихотворение',
161+
'year': 1963}
162+
```

ruts/datasets/sov_chrest_lit.py

Lines changed: 4 additions & 4 deletions
Original file line numberDiff line numberDiff line change
@@ -134,8 +134,8 @@ def get_texts(
134134
year (int): Год издания книги
135135
category (str): Категория текстов
136136
text_type (str): Тип текстов
137-
subject (str): Наименование текста
138-
author (str): Автор текста
137+
subject (str): Наименование текстов
138+
author (str): Автор текстов
139139
min_len (int): Минимальная длина текста (в символах)
140140
max_len (int): Максимальная длина текста (в символах)
141141
limit (int): Количество текстов
@@ -169,8 +169,8 @@ def get_records(
169169
year (int): Год издания книги
170170
category (str): Категория текстов
171171
text_type (str): Тип текстов
172-
subject (str): Наименование текста
173-
author (str): Автор текста
172+
subject (str): Наименование текстов
173+
author (str): Автор текстов
174174
min_len (int): Минимальная длина текста (в символах)
175175
max_len (int): Максимальная длина текста (в символах)
176176
limit (int): Количество текстов

0 commit comments

Comments
 (0)