Python3WebSpider
diff --git a/‎.gitignore
+132 b/‎.gitignore
+132
diff --git a/‎Dockerfile
+9 b/‎Dockerfile
+9
diff --git a/‎deployment.yml
+77 b/‎deployment.yml
+77
diff --git a/‎docker-compose.yml
+16 b/‎docker-compose.yml
+16
diff --git a/‎requirements.txt
+13 b/‎requirements.txt
+13
diff --git a/‎run.sh
+3 b/‎run.sh
+3
diff --git a/‎spider/__init__.py b/‎spider/__init__.py
diff --git a/‎spider/book/__init__.py b/‎spider/book/__init__.py
diff --git a/‎spider/book/items.py
+18 b/‎spider/book/items.py
+18
diff --git a/‎spider/book/middlewares.py
+69 b/‎spider/book/middlewares.py
+69
diff --git a/‎spider/book/pipelines.py
+42 b/‎spider/book/pipelines.py
+42
@@ -0,0 +1,132 @@
+env.sh
+# Created by .ignore support plugin (hsz.mobi)
+### Python template
+# Byte-compiled / optimized / DLL files
+__pycache__/
+*.py[cod]
+*$py.class
+
+# C extensions
+*.so
+
+# Distribution / packaging
+.Python
+build/
+develop-eggs/
+dist/
+downloads/
+eggs/
+.eggs/
+lib/
+lib64/
+parts/
+sdist/
+var/
+wheels/
+pip-wheel-metadata/
+share/python-wheels/
+*.egg-info/
+.installed.cfg
+*.egg
+MANIFEST
+
+# PyInstaller
+#  Usually these files are written by a python script from a template
+#  before PyInstaller builds the exe, so as to inject date/other infos into it.
+*.manifest
+*.spec
+
+# Installer logs
+pip-log.txt
+pip-delete-this-directory.txt
+
+# Unit test / coverage reports
+htmlcov/
+.tox/
+.nox/
+.coverage
+.coverage.*
+.cache
+nosetests.xml
+coverage.xml
+*.cover
+*.py,cover
+.hypothesis/
+.pytest_cache/
+
+# Translations
+*.mo
+*.pot
+
+# Django stuff:
+*.log
+local_settings.py
+db.sqlite3
+db.sqlite3-journal
+
+# Flask stuff:
+instance/
+.webassets-cache
+
+# Scrapy stuff:
+.scrapy
+
+# Sphinx documentation
+docs/_build/
+
+# PyBuilder
+target/
+
+# Jupyter Notebook
+.ipynb_checkpoints
+
+# IPython
+profile_default/
+ipython_config.py
+
+# pyenv
+.python-version
+
+# pipenv
+#   According to pypa/pipenv#598, it is recommended to include Pipfile.lock in version control.
+#   However, in case of collaboration, if having platform-specific dependencies or dependencies
+#   having no cross-platform support, pipenv may install dependencies that don't work, or not
+#   install all needed dependencies.
+#Pipfile.lock
+
+# PEP 582; used by e.g. github.com/David-OConnor/pyflow
+__pypackages__/
+
+# Celery stuff
+celerybeat-schedule
+celerybeat.pid
+
+# SageMath parsed files
+*.sage.py
+
+# Environments
+.env
+.venv
+env/
+venv/
+ENV/
+env.bak/
+venv.bak/
+
+# Spyder project settings
+.spyderproject
+.spyproject
+
+# Rope project settings
+.ropeproject
+
+# mkdocs documentation
+/site
+
+# mypy
+.mypy_cache/
+.dmypy.json
+dmypy.json
+
+# Pyre type checker
+.pyre/
@@ -0,0 +1,9 @@
+FROM python:3.6
+WORKDIR /app
+COPY requirements.txt .
+RUN pip3 install -r requirements.txt
+COPY run.sh .
+RUN sh run.sh
+ADD . .
+WORKDIR /app/spider
+CMD python3 run.py
@@ -0,0 +1,77 @@
+apiVersion: extensions/v1beta1
+kind: Deployment
+metadata:
+  annotations:
+    kompose.cmd: kompose convert -f docker-compose.yml -o deployment.yml
+    kompose.version: 1.20.0 ()
+  creationTimestamp: null
+  labels:
+    io.kompose.service: crawler-book-douban
+  name: crawler-book-douban
+  namespace: crawler
+spec:
+  replicas: 5
+  revisionHistoryLimit: 1
+  strategy: {}
+  template:
+    metadata:
+      annotations:
+        kompose.cmd: kompose convert -f docker-compose.yml -o deployment.yml
+        kompose.version: 1.20.0 ()
+      creationTimestamp: null
+      labels:
+        io.kompose.service: crawler-book-douban
+    spec:
+      containers:
+        - args:
+            - python3
+            - run.py
+          env:
+            - name: PGSQL_DATABASE
+              value: scrape_book
+            - name: PGSQL_HOST
+              valueFrom:
+                secretKeyRef:
+                  name: pgsql
+                  key: host
+            - name: PGSQL_PASSWORD
+              valueFrom:
+                secretKeyRef:
+                  name: pgsql
+                  key: password
+            - name: PGSQL_PORT
+              valueFrom:
+                secretKeyRef:
+                  name: pgsql
+                  key: port
+            - name: PGSQL_USER
+              valueFrom:
+                secretKeyRef:
+                  name: pgsql
+                  key: user
+            - name: REDIS_CONNECTION_STRING
+              valueFrom:
+                secretKeyRef:
+                  name: redis
+                  key: connection_string
+            - name: PROXYPOOL_URL
+              valueFrom:
+                secretKeyRef:
+                  name: proxypool
+                  key: univeral
+            - name: PROXYTUNNEL_URL
+              valueFrom:
+                secretKeyRef:
+                  name: proxytunnel
+                  key: value
+          image: germey/crawler-book-douban:${TAG}
+          name: crawler-book-douban
+          resources:
+            limits:
+              memory: "200Mi"
+              cpu: "150m"
+            requests:
+              memory: "200Mi"
+              cpu: "150m"
+      restartPolicy: Always
+status: {}
@@ -0,0 +1,16 @@
+version: '3'
+services:
+  crawler-book-douban:
+    container_name: 'crawler-book-douban'
+    restart: always
+    build: .
+    image: 'germey/crawler-book-douban'
+    command: 'python3 run.py'
+    environment:
+      REDIS_CONNECTION_STRING:
+      PROXYPOOL_URL:
+      PROXYTUNNEL_URL:
+      PGSQL_HOST:
+      PGSQL_PORT:
+      PGSQL_USER:
+      PGSQL_PASSWORD:
@@ -0,0 +1,13 @@
+scrapy==1.6.0
+Django==2.2.9
+django-cors-headers==3.2.0
+djangorestframework==3.11.0
+requests==2.22.0
+urllib3==1.25.7
+uwsgi==2.0.18
+psycopg2-binary==2.8.4
+scrapy_djangoitem==1.1.1
+dateparser==0.7.2
+merry==0.2.2
+environs==7.2.0
+scrapy-redis==0.6.8
@@ -0,0 +1,3 @@
+git clone https://github.com/Germey/Scrape.git
+cp -r Scrape/src/dynamic5/backend ./backend
+rm -rf Scrape
@@ -0,0 +1,18 @@
+# -*- coding: utf-8 -*-
+
+# Define here the models for your scraped items
+#
+# See documentation in:
+# https://doc.scrapy.org/en/latest/topics/items.html
+
+from scrapy_djangoitem import DjangoItem
+from app.models import Book, Comment
+from scrapy.item import Field
+
+class BookItem(DjangoItem):
+    django_model = Book
+    author_ids = Field()
+
+class CommentItem(DjangoItem):
+    django_model = Comment
+    book_id = Field()
@@ -0,0 +1,69 @@
+import logging
+import requests
+
+class ProxytunnelMiddleware(object):
+    def __init__(self, proxytunnel_url):
+        self.logger = logging.getLogger(__name__)
+        self.proxytunnel_url = proxytunnel_url
+    
+    def process_request(self, request, spider):
+        """
+        if retry_times > 0，get random proxy
+        :param request:
+        :param spider:
+        :return:
+        """
+        if request.meta.get('retry_times') and 1 <= request.meta.get('retry_times') <= 10:
+            self.logger.debug('Using proxytunnel')
+            request.meta['proxy'] = self.proxytunnel_url
+    
+    @classmethod
+    def from_crawler(cls, crawler):
+        settings = crawler.settings
+        return cls(
+            proxytunnel_url=settings.get('PROXYTUNNEL_URL')
+        )
+
+class ProxypoolMiddleware(object):
+    """
+    proxy middleware for changing proxy
+    """
+    
+    def __init__(self, proxypool_url):
+        self.logger = logging.getLogger(__name__)
+        self.proxypool_url = proxypool_url
+    
+    def get_random_proxy(self):
+        """
+        get random proxy form proxypol
+        :return:
+        """
+        try:
+            response = requests.get(self.proxypool_url, timeout=5)
+            if response.status_code == 200:
+                proxy = response.text
+                return proxy
+        except requests.ConnectionError:
+            return False
+    
+    def process_request(self, request, spider):
+        """
+        if retry_times > 0，get random proxy
+        :param request:
+        :param spider:
+        :return:
+        """
+        if request.meta.get('retry_times') and request.meta.get('retry_times') > 10:
+            proxy = self.get_random_proxy()
+            self.logger.debug('Get proxy %s', proxy)
+            if proxy:
+                uri = 'http://{proxy}'.format(proxy=proxy)
+                self.logger.debug('Using proxy %s', proxy)
+                request.meta['proxy'] = uri
+    
+    @classmethod
+    def from_crawler(cls, crawler):
+        settings = crawler.settings
+        return cls(
+            proxypool_url=settings.get('PROXYPOOL_URL')
+        )
@@ -0,0 +1,42 @@
+# -*- coding: utf-8 -*-
+
+# Define your item pipelines here
+#
+# Don't forget to add your pipeline to the ITEM_PIPELINES setting
+# See: https://doc.scrapy.org/en/latest/topics/item-pipeline.html
+from django.db import IntegrityError
+import logging
+from merry import Merry
+from spider.book.items import BookItem, CommentItem
+from app.models import Book, Comment
+
+merry = Merry()
+logger = logging.getLogger(__name__)
+
+class PgSQLPipeline():
+    """
+    save data to postgresql
+    """
+    
+    @merry._try
+    def process_item(self, item, spider):
+        merry.g.item = item
+        logger.debug('Process item type %s', type(item))
+        if isinstance(item, BookItem):
+            item.instance.save()
+            logger.info('Saved book %s', item.instance)
+        
+        if isinstance(item, CommentItem):
+            book_id = item.get('book_id')
+            book, created = Book.objects.get_or_create(id=book_id)
+            logger.info('Created book %s' if created else 'Book %s exists', book)
+            item.instance.book = book
+            item.instance.save()
+            logger.info('Saved book %s', item.instance)
+        
+        return item
+    
+    @merry._except(IntegrityError)
+    def process_integrity_error(self, e):
+        item = merry.g.item
+        logger.info('《%s》of %s already exists', item.get('title'), item.get('website'))
Original file line number	Diff line number	Diff line change
`@@ -0,0 +1,3 @@`
	`1`	`+git clone https://github.com/Germey/Scrape.git`
	`2`	`+cp -r Scrape/src/dynamic5/backend ./backend`
	`3`	`+rm -rf Scrape`