You signed in with another tab or window. Reload to refresh your session.You signed out in another tab or window. Reload to refresh your session.You switched accounts on another tab or window. Reload to refresh your session.Dismiss alert
Como já mencionamos, os dados estão em toda parte. Só precisamos capturá-los da maneira certa! É útil distinguir entre **dados estruturados** e **não estruturados**. Os primeiros geralmente são representados em uma forma bem organizada, frequentemente como uma tabela ou várias tabelas, enquanto os últimos são apenas uma coleção de arquivos. Às vezes, também podemos falar sobre **dados semiestruturados**, que possuem algum tipo de estrutura que pode variar bastante.
12
+
Como já mencionamos, os dados estão em toda parte. Só precisamos capturá-los da maneira certa! É útil distinguir entre **dados estruturados** e **não estruturados**. Os primeiros geralmente são representados em uma forma bem estruturada, frequentemente como uma tabela ou várias tabelas, enquanto os últimos são apenas uma coleção de arquivos. Às vezes, também podemos falar sobre **dados semiestruturados**, que possuem algum tipo de estrutura que pode variar bastante.
13
13
14
-
| Estruturados | Semiestruturados | Não estruturados |
14
+
| Estruturados | Semiestruturados | Não estruturados |
| Lista de pessoas com seus números de telefone | Páginas da Wikipedia com links | Texto da Enciclopédia Britannica |
17
17
| Temperatura em todos os cômodos de um prédio a cada minuto nos últimos 20 anos | Coleção de artigos científicos em formato JSON com autores, data de publicação e resumo | Compartilhamento de arquivos com documentos corporativos |
18
-
| Dados de idade e gênero de todas as pessoas entrando no prédio | Páginas da Internet | Vídeo bruto de uma câmera de vigilância |
18
+
| Dados de idade e gênero de todas as pessoas entrando no prédio | Páginas da Internet | Vídeo bruto de uma câmera de vigilância |
19
19
20
20
## Onde obter Dados
21
21
@@ -30,24 +30,24 @@ Existem muitas fontes possíveis de dados, e seria impossível listar todas elas
30
30
-**Imagens** ou **Vídeos**. Um vídeo de uma câmera de vigilância pode ser usado para estimar o tráfego na estrada e informar as pessoas sobre possíveis congestionamentos.
31
31
-**Logs** de servidores web podem ser usados para entender quais páginas do nosso site são mais visitadas e por quanto tempo.
32
32
***Semiestruturados**
33
-
-**Grafos de Redes Sociais** podem ser ótimas fontes de dados sobre personalidades de usuários e eficácia potencial na disseminação de informações.
33
+
-**Grafos de Redes Sociais** podem ser ótimas fontes de dados sobre personalidades de usuários e potencial eficácia na disseminação de informações.
34
34
- Quando temos um monte de fotografias de uma festa, podemos tentar extrair dados de **Dinâmica de Grupo** construindo um grafo de pessoas tirando fotos umas com as outras.
35
35
36
36
Ao conhecer diferentes fontes possíveis de dados, você pode tentar pensar em diferentes cenários onde técnicas de ciência de dados podem ser aplicadas para entender melhor a situação e melhorar os processos de negócios.
37
37
38
38
## O que você pode fazer com Dados
39
39
40
-
Na Ciência de Dados, focamos nas seguintes etapas da jornada dos dados:
40
+
Na Ciência de Dados, focamos nos seguintes passos da jornada dos dados:
41
41
42
-
Claro, dependendo dos dados reais, algumas etapas podem estar ausentes (por exemplo, quando já temos os dados no banco de dados ou quando não precisamos de treinamento de modelo), ou algumas etapas podem ser repetidas várias vezes (como o processamento de dados).
42
+
Claro, dependendo dos dados reais, alguns passos podem estar ausentes (por exemplo, quando já temos os dados no banco de dados ou quando não precisamos de treinamento de modelo), ou alguns passos podem ser repetidos várias vezes (como o processamento de dados).
43
43
44
44
## Digitalização e Transformação Digital
45
45
46
-
Na última década, muitas empresas começaram a entender a importância dos dados na tomada de decisões de negócios. Para aplicar os princípios da ciência de dados na gestão de um negócio, primeiro é necessário coletar alguns dados, ou seja, traduzir os processos de negócios para uma forma digital. Isso é conhecido como **digitalização**. Aplicar técnicas de ciência de dados a esses dados para orientar decisões pode levar a aumentos significativos na produtividade (ou até mesmo a uma mudança de direção nos negócios), chamado de **transformação digital**.
46
+
Na última década, muitas empresas começaram a entender a importância dos dados na tomada de decisões de negócios. Para aplicar os princípios da ciência de dados na gestão de um negócio, primeiro é necessário coletar alguns dados, ou seja, traduzir os processos de negócios em forma digital. Isso é conhecido como **digitalização**. Aplicar técnicas de ciência de dados a esses dados para orientar decisões pode levar a aumentos significativos na produtividade (ou até mesmo a uma mudança de direção nos negócios), chamado de **transformação digital**.
47
47
48
48
Vamos considerar um exemplo. Suponha que temos um curso de ciência de dados (como este) que oferecemos online para estudantes, e queremos usar ciência de dados para melhorá-lo. Como podemos fazer isso?
49
49
50
-
Podemos começar perguntando "O que pode ser digitalizado?" A maneira mais simples seria medir o tempo que cada aluno leva para completar cada módulo e medir o conhecimento adquirido dando um teste de múltipla escolha ao final de cada módulo. Ao calcular a média do tempo de conclusão entre todos os alunos, podemos descobrir quais módulos causam mais dificuldades e trabalhar para simplificá-los.
50
+
Podemos começar perguntando "O que pode ser digitalizado?" A maneira mais simples seria medir o tempo que cada aluno leva para completar cada módulo e medir o conhecimento adquirido dando um teste de múltipla escolha no final de cada módulo. Ao calcular a média do tempo de conclusão entre todos os alunos, podemos descobrir quais módulos causam mais dificuldades e trabalhar para simplificá-los.
51
51
Você pode argumentar que essa abordagem não é ideal, porque os módulos podem ter comprimentos diferentes. Provavelmente seria mais justo dividir o tempo pelo comprimento do módulo (em número de caracteres) e comparar esses valores em vez disso.
52
52
Quando começamos a analisar os resultados de testes de múltipla escolha, podemos tentar determinar quais conceitos os alunos têm dificuldade em entender e usar essas informações para melhorar o conteúdo. Para isso, precisamos projetar os testes de forma que cada pergunta esteja vinculada a um determinado conceito ou bloco de conhecimento.
53
53
@@ -61,13 +61,13 @@ Neste desafio, tentaremos encontrar conceitos relevantes para o campo de Ciênci
61
61
62
62
Visite [`notebook.ipynb`](../../../../../../../../../1-Introduction/01-defining-data-science/notebook.ipynb':ignore') para ler o código. Você também pode executar o código e ver como ele realiza todas as transformações de dados em tempo real.
63
63
64
-
> Se você não sabe como executar código em um Jupyter Notebook, confira [este artigo](https://soshnikov.com/education/how-to-execute-notebooks-from-github/).
64
+
> Se você não sabe como executar código em um Jupyter Notebook, dê uma olhada neste [artigo](https://soshnikov.com/education/how-to-execute-notebooks-from-github/).
0 commit comments