8 years ago · 83fccfb064
--- a/proxypool/crawler.py
+++ b/proxypool/crawler.py
@@ -1,5 +1,5 @@
 
				 import json
			
 
				-
			
 
				+import re
			
 
				 from .utils import get_page
			
 
				 from pyquery import PyQuery as pq
			
 
				 
			
@@ -23,32 +23,14 @@ class Crawler(object, metaclass=ProxyMetaclass):
 
				             print('成功获取到代理', proxy)
			
 
				             proxies.append(proxy)
			
 
				         return proxies
			
 
				-
			
 
				-    def crawl_xdaili(self):
			
 
				-        """
			
 
				-        获取讯代理
			
 
				-        :return: 代理
			
 
				-        """
			
 
				-        url = 'http://www.xdaili.cn/ipagent/greatRecharge/getGreatIp?spiderId=da289b78fec24f19b392e04106253f2a&orderno=YZ20177140586mTTnd7&returnType=2&count=20'
			
 
				-        html = get_page(url)
			
 
				-        if html:
			
 
				-            result = json.loads(html)
			
 
				-            proxies = result.get('RESULT')
			
 
				-            for proxy in proxies:
			
 
				-                yield proxy.get('ip') + ':' + proxy.get('port')
			
 
				-
			
 
				-    def crawl_kuaidaili(self):
			
 
				-        """
			
 
				-        获取快代理
			
 
				-        :return: 代理
			
 
				-        """
			
 
				-        url = 'http://dev.kuaidaili.com/api/getproxy/?orderid=959961765125099&num=100&b_pcchrome=1&b_pcie=1&b_pcff=1&protocol=1&method=1&an_an=1&an_ha=1&quality=1&format=json&sep=2'
			
 
				+        
			
 
				+    def crawl_daxiang(self):
			
 
				+        url = 'http://vtp.daxiangdaili.com/ip/?tid=559363191592228&num=100&filter=on'
			
 
				         html = get_page(url)
			
 
				         if html:
			
 
				-            result = json.loads(html)
			
 
				-            proxies = result.get('data').get('proxy_list')
			
 
				-            for proxy in proxies:
			
 
				-                yield proxy
			
 
				+            urls = html.split('\n')
			
 
				+            for url in urls:
			
 
				+                yield url
			
 
				 
			
 
				     def crawl_daili66(self, page_count=4):
			
 
				         """
			
@@ -98,3 +80,73 @@ class Crawler(object, metaclass=ProxyMetaclass):
 
				             for td in tds:
			
 
				                 td.find('p').remove()
			
 
				                 yield td.text().replace(' ', '')
			
 
				+
			
 
				+    def crawl_ip181(self):
			
 
				+        start_url = 'http://www.ip181.com/'
			
 
				+        html = get_page(start_url)
			
 
				+        ip_adress = re.compile('<tr.*?>\s*<td>(.*?)</td>\s*<td>(.*?)</td>')
			
 
				+        # \s* 匹配空格，起到换行作用
			
 
				+        re_ip_adress = ip_adress.findall(html)
			
 
				+        for adress,port in re_ip_adress:
			
 
				+            result = adress + ':' + port
			
 
				+            yield result.replace(' ', '')
			
 
				+
			
 
				+
			
 
				+    def crawl_ip3366(self):
			
 
				+        for page in range(1, 4):
			
 
				+            start_url = 'http://www.ip3366.net/free/?stype=1&page={}'.format(page)
			
 
				+            html = get_page(start_url)
			
 
				+            ip_adress = re.compile('<tr>\s*<td>(.*?)</td>\s*<td>(.*?)</td>')
			
 
				+            # \s * 匹配空格，起到换行作用
			
 
				+            re_ip_adress = ip_adress.findall(html)
			
 
				+            for adress, port in re_ip_adress:
			
 
				+                result = adress+':'+ port
			
 
				+                yield result.replace(' ', '')
			
 
				+
			
 
				+
			
 
				+    def crawl_data5u(self):
			
 
				+        for i in ['gngn', 'gnpt']:
			
 
				+            start_url = 'http://www.data5u.com/free/{}/index.shtml'.format(i)
			
 
				+            html = get_page(start_url)
			
 
				+            ip_adress = re.compile(' <ul class="l2">\s*<span><li>(.*?)</li></span>\s*<span style="width: 100px;"><li class=".*">(.*?)</li></span>')
			
 
				+            # \s * 匹配空格，起到换行作用
			
 
				+            re_ip_adress = ip_adress.findall(html)
			
 
				+            for adress, port in re_ip_adress:
			
 
				+                result = adress+':'+port
			
 
				+                yield result.replace(' ','')
			
 
				+
			
 
				+    def crawl_kxdaili(self):
			
 
				+        for i in range(1, 4):
			
 
				+            start_url = 'http://www.kxdaili.com/ipList/{}.html#ip'.format(i)
			
 
				+            html = get_page(start_url)
			
 
				+            ip_adress = re.compile('<tr.*?>\s*<td>(.*?)</td>\s*<td>(.*?)</td>')
			
 
				+            # \s* 匹配空格，起到换行作用
			
 
				+            re_ip_adress = ip_adress.findall(html)
			
 
				+            for adress, port in re_ip_adress:
			
 
				+                result = adress + ':' + port
			
 
				+                yield result.replace(' ', '')
			
 
				+
			
 
				+
			
 
				+    def crawl_premproxy(self):
			
 
				+        for i in ['China-01','China-02','China-03','China-04','Taiwan-01']:
			
 
				+            start_url = 'https://premproxy.com/proxy-by-country/{}.htm'.format(i)
			
 
				+            html = get_page(start_url)
			
 
				+            if html:
			
 
				+                ip_adress = re.compile('<td data-label="IP:port ">(.*?)</td>') 
			
 
				+                re_ip_adress = ip_adress.findall(html)
			
 
				+                for adress_port in re_ip_adress:
			
 
				+                    yield adress_port.replace(' ','')
			
 
				+
			
 
				+    def crawl_xroxy(self):
			
 
				+        for i in ['CN','TW']:
			
 
				+            start_url = 'http://www.xroxy.com/proxylist.php?country={}'.format(i)
			
 
				+            html = get_page(start_url)
			
 
				+            if html:
			
 
				+                ip_adress1 = re.compile("title='View this Proxy details'>\s*(.*).*")
			
 
				+                re_ip_adress1 = ip_adress1.findall(html)
			
 
				+                ip_adress2 = re.compile("title='Select proxies with port number .*'>(.*)</a>") 
			
 
				+                re_ip_adress2 = ip_adress2.findall(html)
			
 
				+                for adress,port in zip(re_ip_adress1,re_ip_adress2):
			
 
				+                    adress_port = adress+':'+port
			
 
				+                    yield adress_port.replace(' ','')
			
 
				+
			
--- a/proxypool/setting.py
+++ b/proxypool/setting.py
@@ -1,11 +1,11 @@
 
				 # Redis数据库地址
			
 
				-REDIS_HOST = 'localhost'
			
 
				+REDIS_HOST = 'DataCrawl-Pool.redis.cache.chinacloudapi.cn'
			
 
				 
			
 
				 # Redis端口
			
 
				 REDIS_PORT = 6379
			
 
				 
			
 
				 # Redis密码，如无填None
			
 
				-REDIS_PASSWORD = 'foobared'
			
 
				+REDIS_PASSWORD = 'A0y1VJ6t9B7R5d6id1/2Rk/aDvZXjdwAR/tWylORuwA='
			
 
				 
			
 
				 REDIS_KEY = 'proxies'
			
 
				 
			
@@ -14,15 +14,15 @@ MAX_SCORE = 100
 
				 MIN_SCORE = 0
			
 
				 INITIAL_SCORE = 10
			
 
				 
			
 
				-VALID_STATUS_CODES = [200]
			
 
				+VALID_STATUS_CODES = [200, 302]
			
 
				 
			
 
				 # 代理池数量界限
			
 
				-POOL_UPPER_THRESHOLD = 10000
			
 
				+POOL_UPPER_THRESHOLD = 50000
			
 
				 
			
 
				 # 检查周期
			
 
				 TESTER_CYCLE = 20
			
 
				 # 获取周期
			
 
				-GETTER_CYCLE = 20
			
 
				+GETTER_CYCLE = 300
			
 
				 
			
 
				 # 测试API，建议抓哪个网站测哪个
			
 
				 TEST_URL = 'https://m.weibo.cn/api/container/getIndex?type=uid&value=2145291155&containerid=1076032145291155&page=14'
			
--- a/proxypool/tester.py
+++ b/proxypool/tester.py
@@ -1,6 +1,6 @@
 
				 import asyncio
			
 
				 import aiohttp
			
 
				-
			
 
				+import time
			
 
				 try:
			
 
				     from aiohttp import ClientError
			
 
				 except:
			
@@ -46,7 +46,11 @@ class Tester(object):
 
				         try:
			
 
				             proxies = self.redis.all()
			
 
				             loop = asyncio.get_event_loop()
			
 
				-            tasks = [self.test_single_proxy(proxy) for proxy in proxies]
			
 
				-            loop.run_until_complete(asyncio.wait(tasks))
			
 
				+            batch_size = 100
			
 
				+            for i in range(0, len(proxies), batch_size):
			
 
				+                test_proxies = proxies[i:i + batch_size]
			
 
				+                tasks = [self.test_single_proxy(proxy) for proxy in test_proxies]
			
 
				+                loop.run_until_complete(asyncio.wait(tasks))
			
 
				+                time.sleep(5)
			
 
				         except Exception as e:
			
 
				             print('测试器发生错误', e.args)
			
--- a/run.py
+++ b/run.py
@@ -1,9 +1,14 @@
 
				 from proxypool.scheduler import Scheduler
			
 
				-
			
 
				+import sys
			
 
				+import io
			
 
				+sys.stdout = io.TextIOWrapper(sys.stdout.buffer, encoding='utf-8')
			
 
				 
			
 
				 def main():
			
 
				-    s = Scheduler()
			
 
				-    s.run()
			
 
				+	try:
			
 
				+	    s = Scheduler()
			
 
				+	    s.run()
			
 
				+	except:
			
 
				+	    main()    
			
 
				 
			
 
				 
			
 
				 if __name__ == '__main__':