DCinside 게시글/댓글 text 크롤러
-
- 기능
- 설정값
- 사용법
- Contacts
- License
- 대한민국 커뮤니티 dcinside의 게시글과, 게시글에 달린 댓글 text를 수집합니다
검색 키워드
,검색 기간
을 설정할 수 있습니다- 중간에 크롤링이 정지되더라도, 진행상황이 저장되므로 이어서 진행할 수 있습니다
크롤링 로그
와오류 로그
는 파일로 저장되어 확인할 수 있습니다
- requirements.txt
- pandas==2.1.1
- numpy==1.26.0
- beautifulsoup4==4.12.2
- selenium==3.14.0
- requests==2.31.0
모든 설정은 main.py 에서 이루어집니다
- 목적에 맞지 않는 콘텐츠를 걸러내는 기능을 합니다
- ex)
기아
라는 기업에 대해 검색하는데,사기아님
,거기아닐까
,여기아니야
같은 불필요한 키워드가 포함된 글을 걸러낼 수 있습니다
- blacklist로 걸러진 글이더라도, whitelist의 단어가 포함되면 유의미한 데이터로 간주하고 수집합니다
- ex)
기아차 완전 사기아님?
이라는 글이 blacklist로 걸러지는 것을 방지합니다
- 갤러리 이름과 url을 설정합니다
- 검색할 키워드를 설정합니다
- 갤러리를 선택할 수 있습니다
- 선택된 갤러리에서만 크롤링이 진행됩니다
- 크롤링 기간을 설정할 수 있습니다
- 기간에 관계 없이, 존재하는 모든 데이터를 크롤링하려면
None
으로 설정합니다
- 실행 또한 main.py 에서 이루어집니다
- 설정값을 입력한 후, 한번에 실행하면 됩니다
crawl_url()
: 게시글 url 수집crawl_text()
: 게시글/댓글 text 수집merge_crawling_results()
: 수집 결과를 하나로 합친다
DC-Crawler
는 GPL-3.0 license
라이선스 하에 공개되어 있습니다. 모델 및 코드를 사용할 경우 라이선스 내용을 준수해주세요. 라이선스 전문은 LICENSE
파일에서 확인하실 수 있습니다.