Skip to content

Kain7f1/DC-Crawler

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

87 Commits
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

DC-Crawler

DCinside 게시글/댓글 text 크롤러


  • 차례

    • 기능
    • 설정값
    • 사용법
    • Contacts
    • License

기능

  • 대한민국 커뮤니티 dcinside의 게시글과, 게시글에 달린 댓글 text를 수집합니다
  • 검색 키워드, 검색 기간을 설정할 수 있습니다
  • 중간에 크롤링이 정지되더라도, 진행상황이 저장되므로 이어서 진행할 수 있습니다
  • 크롤링 로그오류 로그는 파일로 저장되어 확인할 수 있습니다

Requirements

  • requirements.txt
    • pandas==2.1.1
    • numpy==1.26.0
    • beautifulsoup4==4.12.2
    • selenium==3.14.0
    • requests==2.31.0

설정값

모든 설정은 main.py 에서 이루어집니다

blacklist

image

  • 목적에 맞지 않는 콘텐츠를 걸러내는 기능을 합니다
  • ex) 기아라는 기업에 대해 검색하는데, 사기아님, 거기아닐까, 여기아니야 같은 불필요한 키워드가 포함된 글을 걸러낼 수 있습니다

whitelist

image

  • blacklist로 걸러진 글이더라도, whitelist의 단어가 포함되면 유의미한 데이터로 간주하고 수집합니다
  • ex) 기아차 완전 사기아님? 이라는 글이 blacklist로 걸러지는 것을 방지합니다

gall_url

image

  • 갤러리 이름과 url을 설정합니다

keyword

image

  • 검색할 키워드를 설정합니다

gall_name_list

image

  • 갤러리를 선택할 수 있습니다
  • 선택된 갤러리에서만 크롤링이 진행됩니다

start_date, end_date

image

  • 크롤링 기간을 설정할 수 있습니다
  • 기간에 관계 없이, 존재하는 모든 데이터를 크롤링하려면 None으로 설정합니다

사용법

  • 실행 또한 main.py 에서 이루어집니다
  • 설정값을 입력한 후, 한번에 실행하면 됩니다

image

  • crawl_url() : 게시글 url 수집
  • crawl_text() : 게시글/댓글 text 수집
  • merge_crawling_results() : 수집 결과를 하나로 합친다

Contacts

이슈 관련

E-mail


License

DC-CrawlerGPL-3.0 license 라이선스 하에 공개되어 있습니다. 모델 및 코드를 사용할 경우 라이선스 내용을 준수해주세요. 라이선스 전문은 LICENSE 파일에서 확인하실 수 있습니다.

About

커뮤니티 dcinside 크롤러 입니다. 키워드 검색 결과 게시글과 댓글을 수집합니다.

Resources

License

Stars

Watchers

Forks

Packages

No packages published

Contributors 2

  •  
  •