add wx domain check

Ymjie · Ymjie · commit 01e5ebb9e2bb · 2023-02-13T10:49:09.000+08:00
diff --git a/infoscan/api/api.go b/infoscan/api/api.go
@@ -34,7 +34,6 @@ func (a *Api) StartCrawlerJob(urls []string) (name string, id uint) {
 }
 
 func (a *Api) Out2Excel(jobID uint, filename string) {
-	//Crawler.Out2Excel(jobID, a.db, filepath.Join(a.config.ResultPath, filename))
 	Crawler.Out2Excel(jobID, a.db, filename)
 }
 
diff --git a/infoscan/cmd/config.yml b/infoscan/cmd/config.yml
@@ -3,7 +3,7 @@ Version: 0.4
 ResultPath: ./result
 LogPath: ./log
 LogLevel: 1 # 日志记录等级，DEBUG:1 WARN:2 INFO:3 ERROR:4 FATAL:5
-LogPrintingLevel: 1 #日志打印等级
+LogPrintingLevel: 2 #日志打印等级
 SpiderMaxNum: 5 #最大爬虫数量
 whitelistFile : whitelist.txt #白名单，白名单不做内容分析
 Spider:
diff --git a/infoscan/service/Crawler/Crawler.go b/infoscan/service/Crawler/Crawler.go
@@ -25,6 +25,7 @@ type crawler struct {
 	BloomFilter *bloom.Filter
 	Urls        []string
 	Scheduler   *pkg.QueueScheduler[string]
+	WXC         *Processor.WXDomainCheck
 }
 
 func NewCrawlerJob(config *config.Config, db dao.IDAO, name string, urls []string) *CrawlerJob {
@@ -40,6 +41,9 @@ func NewCrawlerJob(config *config.Config, db dao.IDAO, name string, urls []strin
 			Spiders:     map[string]*Spider.Spider{},
 			Urls:        urls,
 			Scheduler:   s,
+			WXC: &Processor.WXDomainCheck{
+				IProcessorDAO: db,
+			},
 		},
 	}
 }
@@ -69,6 +73,7 @@ func (c *CrawlerJob) Run(ctx context.Context) {
 	c.init()
 	var wg sync.WaitGroup
 	cancel, cancelFunc := context.WithCancel(ctx)
+	go c.WXC.Run()
 	for i := 0; i < c.config.SpiderMaxNum; i++ {
 		wg.Add(1)
 		go func() {
@@ -108,12 +113,13 @@ func (c *CrawlerJob) CallbackFunc(page *dao.Page, body []byte) {
 }
 
 func (c *CrawlerJob) createSpider(URL *url.URL) *Spider.Spider {
+
 	spider :=
 		Spider.NewSpider(&c.config.Spider, c.Job.ID, c.DAO).
 			SetFilter(c.BloomFilter).
 			SetMainUrl(URL).
 			SetCallbackFunc(c.CallbackFunc).
 			SetReqer(HttpSpider.NewHttpSpider(&c.config.Spider.Httpspider)).
-			SetProcessor(Processor.NewDataProcessor(c.ID, c.DAO, Processor.DefaultHandlerFuncs, c.config.WhitelistFile))
+			SetProcessor(Processor.NewDataProcessor(c.ID, c.DAO, append(Processor.DefaultHandlerFuncs, c.WXC.Handler), c.config.WhitelistFile))
 	return spider
 }
diff --git a/infoscan/service/Crawler/Out2Excel.go b/infoscan/service/Crawler/Out2Excel.go
@@ -119,19 +119,19 @@ func Out2Excel(jobid uint, DAO dao.IDAO, filename string) {
 		a := []string{}
 		if f.GetSheetIndex(r.Type) == -1 {
 			f.NewSheet(r.Type)
-			raw := map[string]interface{}{}
-			err := json.Unmarshal([]byte(r.Data), &raw)
-			if err != nil {
-				fmt.Println(err.Error())
-				continue
-			}
+			//raw := map[string]interface{}{}
+			//err := json.Unmarshal([]byte(r.Data), &raw)
+			//if err != nil {
+			//	fmt.Println(err.Error())
+			//	continue
+			//}
 			a = append(a, "URL")
 			a = append(a, "父URL")
 			//for k, _ := range raw {
 			//	a = append(a, k)
 			//}
 			a = append(a, "数据")
-			err = f.SetSheetRow(r.Type, "A1", &a)
+			err := f.SetSheetRow(r.Type, "A1", &a)
 			if err != nil {
 				fmt.Println(err.Error())
 				continue
@@ -173,7 +173,7 @@ func Out2Excel(jobid uint, DAO dao.IDAO, filename string) {
 		}
 		a = append(a, url1.URL)
 		a = append(a, url2.URL)
-		a = append(a, fmt.Sprintf("%s", r.Data))
+		a = append(a, r.Data)
 		err = f.SetSheetRow(r.Type, axis, &a)
 		if err != nil {
 			fmt.Println(err.Error())
diff --git a/infoscan/service/Crawler/Processor/ProcessorFunc.go b/infoscan/service/Crawler/Processor/ProcessorFunc.go
@@ -54,6 +54,9 @@ func EXLinkPF(page *dao.Page, data []byte) (*dao.ProcessResult, error) { //exter
 	if !page.External {
 		return &result, errors.New("no data")
 	}
+	if strings.Contains(page.Error, "not text") {
+		return &result, errors.New("no data")
+	}
 	if page.Code == 0 {
 		result.Type = "外部死链"
 	}
diff --git a/infoscan/service/Crawler/Processor/data_process.go b/infoscan/service/Crawler/Processor/data_process.go
@@ -92,10 +92,10 @@ func PageFindUrlpressor(ulist []string, iurl string) [][]*url.URL {
 	var extrls []*url.URL
 	parse, _ := url.Parse(iurl)
 	for _, u := range ulist {
-		if ckSuffixe(u) {
-			continue
-		}
 		if up, err := url.Parse(u); err == nil {
+			if ckSuffixe(up.Path) {
+				continue
+			}
 			if up.Scheme == "" {
 				up.Scheme = "http"
 			}
@@ -105,7 +105,7 @@ func PageFindUrlpressor(ulist []string, iurl string) [][]*url.URL {
 				extrls = append(extrls, up)
 			}
 		} else {
-			logger.PF(logger.LERROR, "<URLFinder>页面内容中的URL:%s 处理失败：%s,来自页面：%s", u, err.Error(), iurl)
+			logger.PF(logger.LDEBUG, "<URLFinder>页面内容中的URL:%s 处理失败：%s,来自页面：%s", u, err.Error(), iurl)
 		}
 	}
 	return [][]*url.URL{urls, extrls}
@@ -122,18 +122,17 @@ func HtmlFindUrlpressor(ulist []string, iurl string) [][]*url.URL {
 		if raUrl == "//" || raUrl == "/" {
 			continue
 		}
-		if strings.Contains(raUrl, "javascript:vo") {
+		if strings.Contains(raUrl, "javascript:") {
 			//javascript:void(0)
 			continue
 		}
-		if ckSuffixe(raUrl) {
-			continue
-		}
 		parserulfunc := func(urlstr string, sliec *[]*url.URL) {
 			if u, err := url.Parse(urlstr); err != nil {
-				logger.PF(logger.LERROR, "<URLFinder>Html标签属性中的URL:%s 处理失败：%s,来自页面：%s", urlstr, err.Error(), iurl)
+				logger.PF(logger.LDEBUG, "<URLFinder>Html标签属性中的URL:%s 处理失败：%s,来自页面：%s", urlstr, err.Error(), iurl)
 			} else if u.Host == "" {
-				logger.PF(logger.LERROR, "<URLFinder>Html标签属性中的URL:%s 处理失败,来自页面：%s", urlstr, iurl)
+				logger.PF(logger.LDEBUG, "<URLFinder>Html标签属性中的URL:%s 处理失败,来自页面：%s", urlstr, iurl)
+			} else if ckSuffixe(u.Path) {
+				return
 			} else {
 				*sliec = append(*sliec, u)
 			}
diff --git a/infoscan/service/Crawler/Processor/wxDomainCheck.go b/infoscan/service/Crawler/Processor/wxDomainCheck.go
@@ -0,0 +1,122 @@
+package Processor
+
+import (
+	"GScan/infoscan/dao"
+	"GScan/pkg"
+	"GScan/pkg/logger"
+	"bytes"
+	"encoding/json"
+	"errors"
+	"fmt"
+	"io"
+	"net/http"
+	"net/url"
+	"regexp"
+	"strings"
+)
+
+type WXDomainCheck struct {
+	dao.IProcessorDAO
+	JobID     uint
+	Scheduler pkg.QueueScheduler[*dao.Page]
+	Client    http.Client
+}
+
+func (w *WXDomainCheck) Run() {
+	w.Client = http.Client{}
+	w.Client.CheckRedirect = func(req *http.Request, via []*http.Request) error {
+		return http.ErrUseLastResponse
+	}
+	w.Scheduler.Init()
+	w.Scheduler.Run()
+	workerChan := w.Scheduler.WorkerChan()
+	for {
+		w.Scheduler.WorkerReady(workerChan)
+		select {
+		case page := <-workerChan:
+			res, ok := w.check(page.URL)
+			if !ok {
+				result := dao.ProcessResult{
+					Type:   "微信域名检测",
+					JobID:  page.JobID,
+					PageID: page.ID,
+					Data:   res,
+				}
+				w.AddResult(&result)
+				logger.PF(logger.LINFO, "<DataProcessor>[%s]%s  :%s", result.Type, page.URL, result.Data)
+			}
+			dao.PagePool.Put(page)
+		}
+	}
+}
+
+func (w *WXDomainCheck) Handler(page *dao.Page, data []byte) (*dao.ProcessResult, error) {
+	if !page.External {
+		return nil, errors.New("no data")
+	}
+	if strings.Contains(page.Error, "not text") {
+		return nil, errors.New("no data")
+	}
+	npage := dao.PagePool.Get().(*dao.Page)
+	marshal, _ := json.Marshal(page)
+	if err := json.Unmarshal(marshal, npage); err != nil {
+		return nil, err
+	}
+	w.Scheduler.Submit(npage)
+
+	return nil, errors.New("no data")
+}
+
+type WXRESP struct {
+	Type  string `json:"type"`
+	Title string `json:"title"`
+	Desc  string `json:"desc"`
+}
+
+var re = regexp.MustCompile(`(?m)cgiData = (.*?);
+    </script>`)
+
+func (w *WXDomainCheck) check(url0 string) (string, bool) {
+	wxurl := fmt.Sprintf("https://mp.weixinbridge.com/mp/wapredirect?url=%s", url.QueryEscape(url0))
+	request, _ := http.NewRequest("GET", wxurl, nil)
+	resp, err := w.Client.Do(request)
+	if err != nil {
+		return err.Error(), true
+	}
+	if resp.StatusCode != 302 {
+		return "StatusCode!=302 可能被风控", true
+	}
+	if Location, ok := resp.Header["Location"]; ok {
+		if !strings.Contains(Location[0], "weixin110.qq.com") {
+			return "正常", true
+		}
+		wxresp, err := http.Get(Location[0])
+		if err != nil {
+			return err.Error(), true
+		}
+		all, err := io.ReadAll(wxresp.Body)
+		if err != nil {
+			return err.Error(), true
+		}
+		re.FindAllSubmatch(all, -1)
+		submatch := re.FindAllSubmatch(all, -1)
+		if len(submatch) == 0 {
+			return "检测失败", true
+		}
+
+		if bytes.Contains(submatch[0][1], []byte("该地址为IP地址")) {
+			return "IP地址", true
+		}
+		jsdata := WXRESP{}
+		err = json.Unmarshal(submatch[0][1], &jsdata)
+		if err != nil {
+			return err.Error(), true
+		}
+		if jsdata.Type == "empty" {
+			return jsdata.Title, false
+		} else {
+			return jsdata.Desc, false
+		}
+	}
+	return "检测失败 未找到Loc", true
+}
diff --git a/infoscan/service/Crawler/Processor/wxDomainCheck_test.go b/infoscan/service/Crawler/Processor/wxDomainCheck_test.go
@@ -0,0 +1,40 @@
+package Processor
+
+import (
+	"GScan/infoscan/dao"
+	"GScan/pkg"
+	"testing"
+)
+
+func Test_wxDominCheck_check(t *testing.T) {
+	type args struct {
+		url0 string
+	}
+	tests := []struct {
+		name  string
+		args  args
+		want  string
+		want1 bool
+	}{
+		{
+			name: "vshex",
+			args: args{url0: "http://vshex.com"},
+		},
+	}
+
+	for _, tt := range tests {
+		t.Run(tt.name, func(t *testing.T) {
+			w := &WXDomainCheck{
+				Scheduler: pkg.QueueScheduler[*dao.Page]{},
+			}
+			w.Run()
+			got, got1 := w.check(tt.args.url0)
+			if got != tt.want {
+				t.Errorf("check() got = %v, want %v", got, tt.want)
+			}
+			if got1 != tt.want1 {
+				t.Errorf("check() got1 = %v, want %v", got1, tt.want1)
+			}
+		})
+	}
+}
diff --git a/infoscan/service/Crawler/Spider/engine.go b/infoscan/service/Crawler/Spider/engine.go
@@ -31,12 +31,16 @@ func (s *Spider) Processor(page *dao.Page, body []byte) {
 				s.AddUrlbypage([]*dao.Page{page})
 			}
 		}
-		logger.PF(logger.LWARN, "<Spider>[%s]%s访问出错(%d),%s", s.Host, page.URL, page.ErrorNum, page.Error)
+		if !strings.HasPrefix(page.Error, "not text") {
+			logger.PF(logger.LWARN, "<Spider>[%s]%s访问出错(%d),%s", s.Host, page.URL, page.ErrorNum, page.Error)
+		}
 		s.DAO.UpdatePage(page)
 		return
 	}
 	urls := Processor.Findurl(body, page.URL)
-	logger.PF(logger.LDEBUG, "<Spider>[%s]%s发现内链%d个，外链%d个", s.Host, page.URL, len(urls[0]), len(urls[1]))
+	if len(urls[0]) > 0 || len(urls[1]) > 0 {
+		logger.PF(logger.LINFO, "<Spider>[%s]%s发现内链%d个，外链%d个", s.Host, page.URL, len(urls[0]), len(urls[1]))
+	}
 	for _, u := range urls[1] {
 		page.ExtURLList = append(page.ExtURLList, u.String())
 	}
@@ -82,6 +86,7 @@ func (s *Spider) AddNewPage(urls []*url.URL) ([]*dao.Page, error) {
 			pg.JobID = s.JobID
 			pg.Status = "未访问"
 			pg.Model = gorm.Model{}
+			pg.ID = 0
 			pg.URL = surl.String()
 			pg.Title = ""
 			pg.Error = ""
diff --git a/pkg/BytePoll.go b/pkg/BytePoll.go
@@ -0,0 +1,9 @@
+package pkg
+
+import (
+	"sync"
+)
+
+var BytePoll = sync.Pool{New: func() any {
+	return []byte{}
+}}

Original file line number	Diff line number	Diff line change
`@@ -34,7 +34,6 @@ func (a *Api) StartCrawlerJob(urls []string) (name string, id uint) {`
`34`	`34`	`}`
`35`	`35`
`36`	`36`	`func (a *Api) Out2Excel(jobID uint, filename string) {`
`37`		`- //Crawler.Out2Excel(jobID, a.db, filepath.Join(a.config.ResultPath, filename))`
`38`	`37`	`Crawler.Out2Excel(jobID, a.db, filename)`
`39`	`38`	`}`
`40`	`39`
Original file line number	Diff line number	Diff line change
`@@ -54,6 +54,9 @@ func EXLinkPF(page dao.Page, data []byte) (dao.ProcessResult, error) { //exter`
`54`	`54`	`if !page.External {`
`55`	`55`	`return &result, errors.New("no data")`
`56`	`56`	`}`
	`57`	`+ if strings.Contains(page.Error, "not text") {`
	`58`	`+ return &result, errors.New("no data")`
	`59`	`+ }`
`57`	`60`	`if page.Code == 0 {`
`58`	`61`	`result.Type = "外部死链"`
`59`	`62`	`}`