big-data-projects

projects using hadoops and sparks map reduce jobs

For simplicity the data was generated, using this code.

DOCKER

start containers in detachable mode (background)
- docker-compose up -d
get inside docker container
- docker exec -it namenode /bin/bash
create dir in hdfs
- hdfs dfs -mkdir -p /foldername
lookup ip of namenode with ifconfig
lookup port of namenode with docker container -ls
copy jar to namenode
- docker cp /pathToJar namenode:/tmp

HADOOP over HDFS

Go to hadoop folder.

Format the filesystem:
- bin/hdfs namenode -format
Start NameNode daemon and DataNode daemon:

sbin/start-dfs.sh

create dir:
- hdfs dfs -mkdir /foldername
upload file
- hdfs dfs -put fullPath/data.txt /foldername/
delete file
- bin/hdfs dfs -rm -r /foldername/data.txt

run command:

path/hadoop jar path/project-0.jar WordCount /cs585/data.txt /cs585/output2.txt

e.g. bin/hadoop jar /home/twobeers/IdeaProjects/wordCount/out/artifacts/wordCount_jar/wordCount.jar /cs585/data.txt /cs585/output2.txt

query1 bin/hadoop jar /home/twobeers/Desktop/bigData/big-data-projects/out/artifacts/big_data_projects_jar/big-data-projects.jar /project1/customers.csv /project1/output-query1.txt

Name		Name	Last commit message	Last commit date
Latest commit History 25 Commits
customerTransactions		customerTransactions
project2		project2
project3		project3
wordCount		wordCount
.gitignore		.gitignore
LICENSE		LICENSE
README.md		README.md

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

Repository files navigation

big-data-projects

DOCKER

HADOOP over HDFS

About

Uh oh!

Releases

Packages

Uh oh!

Contributors 2

Uh oh!

Languages

License

tobias-mack/big-data-projects

Folders and files

Latest commit

History

Repository files navigation

big-data-projects

DOCKER

HADOOP over HDFS

About

Resources

License

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Uh oh!

Contributors 2

Uh oh!

Languages

Packages