DC-Crawler

DCinside 게시글/댓글 text 크롤러

차례
- 기능
- 설정값
- 사용법
- Contacts
- License

기능

대한민국 커뮤니티 dcinside의 게시글과, 게시글에 달린 댓글 text를 수집합니다
검색 키워드, 검색 기간을 설정할 수 있습니다
중간에 크롤링이 정지되더라도, 진행상황이 저장되므로 이어서 진행할 수 있습니다
크롤링 로그와 오류 로그는 파일로 저장되어 확인할 수 있습니다

Requirements

requirements.txt
- pandas==2.1.1
- numpy==1.26.0
- beautifulsoup4==4.12.2
- selenium==3.14.0
- requests==2.31.0

설정값

모든 설정은 main.py 에서 이루어집니다

blacklist

목적에 맞지 않는 콘텐츠를 걸러내는 기능을 합니다
ex) 기아라는 기업에 대해 검색하는데, 사기아님, 거기아닐까, 여기아니야 같은 불필요한 키워드가 포함된 글을 걸러낼 수 있습니다

whitelist

blacklist로 걸러진 글이더라도, whitelist의 단어가 포함되면 유의미한 데이터로 간주하고 수집합니다
ex) 기아차 완전 사기아님? 이라는 글이 blacklist로 걸러지는 것을 방지합니다

gall_url

갤러리 이름과 url을 설정합니다

keyword

검색할 키워드를 설정합니다

gall_name_list

갤러리를 선택할 수 있습니다
선택된 갤러리에서만 크롤링이 진행됩니다

start_date, end_date

크롤링 기간을 설정할 수 있습니다
기간에 관계 없이, 존재하는 모든 데이터를 크롤링하려면 None으로 설정합니다

사용법

실행 또한 main.py 에서 이루어집니다
설정값을 입력한 후, 한번에 실행하면 됩니다

crawl_url() : 게시글 url 수집
crawl_text() : 게시글/댓글 text 수집
merge_crawling_results() : 수집 결과를 하나로 합친다

Contacts

이슈 관련

https://github.com/Kain7f1/DC-Crawler/issues

E-mail

[email protected]

License

DC-Crawler는 GPL-3.0 license 라이선스 하에 공개되어 있습니다. 모델 및 코드를 사용할 경우 라이선스 내용을 준수해주세요. 라이선스 전문은 LICENSE 파일에서 확인하실 수 있습니다.

Name		Name	Last commit message	Last commit date
Latest commit History 87 Commits
src		src
test_multithreading_and_multiprocessing		test_multithreading_and_multiprocessing
LICENSE		LICENSE
README.md		README.md
main.py		main.py
requirements.txt		requirements.txt
test.py		test.py

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

Repository files navigation

DC-Crawler

차례

기능

Requirements

설정값

blacklist

whitelist

gall_url

keyword

gall_name_list

start_date, end_date

사용법

Contacts

이슈 관련

E-mail

License

About

Uh oh!

Releases

Packages

Uh oh!

Contributors 2

Uh oh!

Languages

License

Kain7f1/DC-Crawler

Folders and files

Latest commit

History

Repository files navigation

DC-Crawler

차례

기능

Requirements

설정값

blacklist

whitelist

gall_url

keyword

gall_name_list

start_date, end_date

사용법

Contacts

이슈 관련

E-mail

License

About

Resources

License

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Uh oh!

Contributors 2

Uh oh!

Languages

Packages