操作系统基本原理

图片 1

89、爬虫基本原理,89爬虫基本原理

本篇导航:

  • 爬虫是什么
  • 爬虫的基本流程
  • 请求与响应
  • Request
  • Response
  • 总结

1.request

 

 

一、爬虫是什么

图片 2

#1、什么是互联网?
    互联网是由网络设备(网线,路由器,交换机,防火墙等等)和一台台计算机连接而成,像一张网一样。

#2、互联网建立的目的?
    互联网的核心价值在于数据的共享/传递:数据是存放于一台台计算机上的,而将计算机互联到一起的目的就是为了能够方便彼此之间的数据共享/传递,否则你只能拿U盘去别人的计算机上拷贝数据了。

#3、什么是上网?爬虫要做的是什么?
    我们所谓的上网便是由用户端计算机发送请求给目标计算机,将目标计算机的数据下载到本地的过程。
    #3.1 只不过,用户获取网络数据的方式是:
      浏览器提交请求->下载网页代码->解析/渲染成页面。

    #3.2 而爬虫程序要做的就是:
      模拟浏览器发送请求->下载网页代码->只提取有用的数据->存放于数据库或文件中
 
    #3.1与3.2的区别在于:
      我们的爬虫程序只提取网页代码中对我们有用的数据

#4、总结爬虫
    #4.1 爬虫的比喻:
      如果我们把互联网比作一张大的蜘蛛网,那一台计算机上的数据便是蜘蛛网上的一个猎物,而爬虫程序就是一只小蜘蛛,沿着蜘蛛网抓取自己想要的猎物/数据

    #4.2 爬虫的定义:
      向网站发起请求,获取资源后分析并提取有用数据的程序 

    #4.3 爬虫的价值:
      互联网中最有价值的便是数据,比如天猫商城的商品信息,链家网的租房信息,雪球网的证券投资信息等等,这些数据都代表了各个行业的真金白银,可以说,谁掌握了行业内的第一手数据,谁就成了整个行业的主宰,如果把整个互联网的数据比喻为一座宝藏,那我们的爬虫课程就是来教大家如何来高效地挖掘这些宝藏,掌握了爬虫技能,你就成了所有互联网信息公司幕后的老板,换言之,它们都在免费为你提供有价值的数据。

 

二、爬虫的基本流程

图片 3

#1、发起请求
使用http库向目标站点发起请求,即发送一个Request
Request包含:请求头、请求体等

#2、获取响应内容
如果服务器能正常响应,则会得到一个Response
Response包含:html,json,图片,视频等

#3、解析内容
解析html数据:正则表达式,第三方解析库如Beautifulsoup,pyquery等
解析json数据:json模块
解析二进制数据:以b的方式写入文件

#4、保存数据
数据库
文件

 

 

HttpClient最重要的功能就是就是执行Http的方法。执行Http方法设计一个或多个http
request和http response
,这些通常由HttpClient内部处理,用户提供一个待执行request的对象,HttpClient将把request发送到目标服务器并返回响应的response对象,或者在执行失败的情况下抛出异常。

操作系统用于管理系统的硬件、软件和数据资源,控制程序的运行,是应用软件与硬件之间的接口,也是人机之间的接口。操作系统的职能包括进程管理、存储管理、文件管理、设备管理、作业管理等。

 

三、请求与响应

图片 4

#http协议:http://www.cnblogs.com/linhaifeng/articles/8243379.html

#Request:用户将自己的信息通过浏览器(socket client)发送给服务器(socket server)

#Response:服务器接收请求,分析用户发来的请求信息,然后返回数据(返回的数据中可能包含其他链接,如:图片,js,css等)

#ps:浏览器在接收Response后,会解析其内容来显示给用户,而爬虫程序在模拟浏览器发送请求然后接收Response后,是要提取其中的有用数据。

 

四、Request

#1、请求方式:
    常用的请求方式:GET,POST
    其他请求方式:HEAD,PUT,DELETE,OPTHONS

    ps:用浏览器演示get与post的区别,(用登录演示post)

    post与get请求最终都会拼接成这种形式:k1=xxx&k2=yyy&k3=zzz
    post请求的参数放在请求体内:
        可用浏览器查看,存放于form data内
    get请求的参数直接放在url后

#2、请求url
    url全称统一资源定位符,如一个网页文档,一张图片
    一个视频等都可以用url唯一来确定

    url编码
    https://www.baidu.com/s?wd=图片
    图片会被编码(看示例代码)


    网页的加载过程是:
    加载一个网页,通常都是先加载document文档,
    在解析document文档的时候,遇到链接,则针对超链接发起下载图片的请求

#3、请求头
    User-agent:请求头中如果没有user-agent客户端配置,
    服务端可能将你当做一个非法用户
    host
    cookies:cookie用来保存登录信息

    一般做爬虫都会加上请求头


#4、请求体
    如果是get方式,请求体没有内容
    如果是post方式,请求体是format data

    ps:
    1、登录窗口,文件上传等,信息都会被附加到请求体内
    2、登录,输入错误的用户名密码,然后提交,就可以看到post,正确登录后页面通常会跳转,无法捕捉到post 

 
图片 5

from urllib.parse import urlencode
import requests

headers={
'Accept':'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8',
'Cookie':'H_WISE_SIDS=101556_115474_115442_114743_108373_100099_115725_106201_107320_115339_114797_115553_116093_115546_115625_115446_114329_115350_114275_116040_110085; PSTM=1494300712; BAIDUID=42FE2934E37AF7AD1FA31D8CC7006D45:FG=1; BIDUPSID=2996557DB2710279BD865C50F9A68615; MCITY=-%3A; __cfduid=da9f97dea6458ca26aa4278280752ebb01508939712; BDSFRCVID=PGLsJeCCxG3wt_3ZUrBLDfv2D_qBZSjAgcEe3J; H_BDCLCKID_SF=tJAOoCLytI03qn5zq4Oh-4oHhxoJq5QxbT7Z0l8KtfcNVJQs-lCMhbtp-l3GJPoLWK6hBKQmWIQHDnbsbq0M2tcQXR5-WROCte74KKJx-4PWeIJo5tKh04JbhUJiB5OLBan7Lq7xfDDbbDtmej_3-PC3ql6354Rj2C_X3b7EfKjIOtO_bfbT2MbyeqrNQlTkLIvXoITJQD_bEP3Fbfj2DPQ3KabZqjDjJbue_I05f-oqebT4btbMqRtthf5KeJ3KaKrKW5rJabC3hPJeKU6qLT5Xjh6B5qDfyDoAbKOt-IOjhb5hMpnx-p0njxQyaR3RL2Kj0p_EWpcxsCQqLUonDh8L3H7MJUntKjnRonTO5hvvhb6O3M7-XpOhDG0fJjtJJbksQJ5e24oqHP-kKPrV-4oH5MQy5toyHD7yWCvjWlT5OR5Jj6KMjMkb3xbz2fcpMIrjob8M5CQESInv3MA--fcLD2ch5-3eQgTI3fbIJJjWsq0x0-jle-bQypoa-U0j2COMahkMal7xO-QO05CaD53yDNDqtjn-5TIX_CjJbnA_Hn7zepoxebtpbt-qJJjzMerW_Mc8QUJBH4tR-T3keh-83xbnBT5KaKO2-RnPXbcWjt_lWh_bLf_kQN3TbxuO5bRiL66I0h6jDn3oyT3VXp0n54nTqjDHfRuDVItXf-L_qtDk-PnVeUP3DhbZKxtqtDKjXJ7X2fclHJ7z-R3IBPCD0tjk-6JnWncKaRcI3poiqKtmjJb6XJkl2HQ405OT-6-O0KJcbRodobAwhPJvyT8DXnO7-fRTfJuJ_DDMJDD3fP36q4QV-JIehmT22jnT32JeaJ5n0-nnhP3mBTbA3JDYX-Oh-jjRX56GhfO_0R3jsJKRy66jK4JKjHKet6vP; ispeed_lsm=0; H_PS_PSSID=1421_24558_21120_17001_24880_22072; BD_UPN=123253; H_PS_645EC=44be6I1wqYYVvyugm2gc3PK9PoSa26pxhzOVbeQrn2rRadHvKoI%2BCbN5K%2Bg; BDORZ=B490B5EBF6F3CD402E515D22BCDA1598',
'Host':'www.baidu.com',
'User-Agent':'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_11_6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/61.0.3163.100 Safari/537.36'}

# response=requests.get('https://www.baidu.com/s?'+urlencode({'wd':'美女'}),headers=headers)
response=requests.get('https://www.baidu.com/s',params={'wd':'美女'},headers=headers) #params内部就是调用urlencode
print(response.text)

View Code


 

五、Response

 

#1、响应状态
    200:代表成功
    301:代表跳转
    404:文件不存在
    403:权限
    502:服务器错误

#2、Respone header
    set-cookie:可能有多个,是来告诉浏览器,把cookie保存下来

#3、preview就是网页源代码
    最主要的部分,包含了请求资源的内容
    如网页html,图片
    二进制数据等

 


 

 

六、总结

#1、总结爬虫流程:
    爬取--->解析--->存储

#2、爬虫所需工具:
    请求库:requests,selenium
    解析库:正则,beautifulsoup,pyquery
    存储库:文件,MySQL,Mongodb,Redis

#3、爬虫常用框架:
    scrapy

图片 6

# import requests #pip3 install requests
# import re
# import hashlib
# import time
#
# movie_path=r'C:\mp4'
#
# def get_page(url):
#     try:
#         response=requests.get(url)
#         if response.status_code == 200:
#             return response.text
#     except Exception:
#         pass
#
# def parse_index(index_page):
#     urls=re.findall('class="items".*?href="(.*?)"',index_page,re.S)
#     for url in urls:
#         if not url.startswith('http'):
#             url='http://www.xiaohuar.com'+url
#         yield url
#
# def parse_detail(detail_page):
#     l=re.findall('id="media".*?src="(.*?)"',detail_page,re.S)
#     if l:
#         movie_url=l[0]
#         if movie_url.endswith('mp4'):
#             yield movie_url
#
# def get_movie(url):
#     try:
#         response=requests.get(url)
#         if response.status_code == 200:
#             m=hashlib.md5()
#             m.update(str(time.time()).encode('utf-8'))
#             m.update(url.encode('utf-8'))
#             filepath='%s\%s.mp4' %(movie_path,m.hexdigest())
#             with open(filepath,'wb') as f:
#                 f.write(response.content)
#                 print('%s 下载成功' %url)
#     except Exception:
#         pass
#
# def main():
#     base_url='http://www.xiaohuar.com/list-3-{page_num}.html'
#     for i in range(5):
#         url=base_url.format(page_num=i)
#         index_page=get_page(url)
#         detail_urls=parse_index(index_page)
#         for detail_url in detail_urls:
#             detail_page=get_page(detail_url)
#             movie_urls=parse_detail(detail_page)
#             for movie_url in movie_urls:
#                 get_movie(movie_url)
#
# if __name__ == '__main__':
#     main()




import requests #pip3 install requests
import re
import hashlib
import time
from concurrent.futures import ThreadPoolExecutor

pool=ThreadPoolExecutor(50)
movie_path=r'D:\mp4'

def get_page(url):
    try:
        response=requests.get(url)
        if response.status_code == 200:
            return response.text
    except Exception:
        pass

def parse_index(index_page):
    index_page=index_page.result()
    urls=re.findall('class="items".*?href="(.*?)"',index_page,re.S)
    for detail_url in urls:
        if not detail_url.startswith('http'):
            detail_url='http://www.xiaohuar.com'+detail_url
        pool.submit(get_page,detail_url).add_done_callback(parse_detail)

def parse_detail(detail_page):
    detail_page=detail_page.result()
    l=re.findall('id="media".*?src="(.*?)"',detail_page,re.S)
    if l:
        movie_url=l[0]
        if movie_url.endswith('mp4'):
            pool.submit(get_movie,movie_url)

def get_movie(url):
    try:
        response=requests.get(url)
        if response.status_code == 200:
            m=hashlib.md5()
            m.update(str(time.time()).encode('utf-8'))
            m.update(url.encode('utf-8'))
            filepath='%s\%s.mp4' %(movie_path,m.hexdigest())
            with open(filepath,'wb') as f:
                f.write(response.content)
                print('%s 下载成功' %url)
    except Exception:
        pass

def main():
    base_url='http://www.xiaohuar.com/list-3-{page_num}.html'
    for i in range(5):
        url=base_url.format(page_num=i)
        pool.submit(get_page,url).add_done_callback(parse_index)

if __name__ == '__main__':
    main()

爬取校花网视频

 

本篇导航:
爬虫是什么 爬虫的基本流程 请求与响应 Request Response 总结
一、爬虫是什么 # 1、什么是互联…

所以,HttpClient API主要的入口定义了就是上述内容的httpClient接口,for
example

 

CloseableHttpClient httpclient = HttpClients.createDefault();

HttpGet httpget = new HttpGet(“”);

CloseableHttpResponse response = httpclient.execute(httpget);

try {

<…>

response.close();

}

在进程管理中,PV操作在处理进程的同步与互斥问题方面非常重要,当多个进程需要同时访问共享资源时会用到。PV是用荷兰语表示的简写,P表示通过,V表示释放,据说这是计算机领域为数不多的非英语简写。

所有HTTP请求行包含方法名,请求URI和HTTP协议版本。HttpClient支持HTTP /
1.1规范中定义的所有HTTP方法:get,post,put,delete等,每一个特定的类都有一个特定的方法与之对应,:HttpHead
HttpGet HttpPost、HttpPut HttpDelete HttpTrace,HttpOptions。

图片 7

HttpGet httpget = new HttpGet(

“”);

 

HttpClient也提供了URIBuilder类来简化创建和修改请求URI

PV操作由P操作原语和V操作原语组成,原语也叫原子操作,表示不可中断的过程,这两个原语要操作信号量S。

URI uri = new URIBuilder()

.setScheme(“http”)

.setHost(“www.google.com”)

.setPath(“/search”)

.setParameter(“q”, “httpclient”)

.setParameter(“btnG”, “Google Search”)

.setParameter(“aq”, “f”)

.setParameter(“oq”, “”)

.build();

HttpGet httpget = new HttpGet(uri);

P操作将S的值减1,如果S<0,则将该进程置为等待状态并加入进程队列中,否则继续执行。

2.request 执行

V操作将S的值加1,如果S<=0则唤醒等待队列中的第一个进程,否则继续执行。

HTTP响应是由服务器将发送过来的消息解释后返回到客户端的消息。

接下来使用单缓存区生产者、消费者问题来描述PV操作的运用,由于只有一个单缓存区,生产速度过快会使缓存区溢出,而消费速度过快会从缓存区拿到空值,如图所示,在加入PV操作后就能解决这些问题

HttpResponse response = new BasicHttpResponse(HttpVersion.HTTP_1_1,

HttpStatus.SC_OK, “OK”);

System.out.println(response.getProtocolVersion());

System.out.println(response.getStatusLine().getStatusCode());

System.out.println(response.getStatusLine().getReasonPhrase());

System.out.println(response.getStatusLine().toString());

图片 8

3.处理消息头

 

一个Http消息可以包含多个描述属性信息的头,如,内容长度,内容类型,HttpClient提供了一些方法来检索、添加、删除和列举头。

有生产者、消费者两个进程,使用两个PV操作,S1的初值为1,S2的初值为0。生产者第一次执行,S1=0,送产品到缓存区,S2=1;第二次执行时S1=-1,生产者进程转为等待状态并加入进程队列。对于消费者进程,第一次执行过程中S2=0,从缓存区取产品,S1=0,消费产品,由于S1=0,生产者进程便被唤醒了,此时正好缓存区的产品被消费完。同理,如果消费者进程先执行,也照样能保证两个进程的配合无间。

HttpResponse response = new
BasicHttpResponse(HttpVersion.HTTP_1_1,

HttpStatus.SC_OK, “OK”);

response.addHeader(“Set-Cookie”,

“c1=a; path=/; domain=localhost”);

response.addHeader(“Set-Cookie”,

“c2=b; path=\”/\”, c3=c; domain=\”localhost\””);

Header h1 = response.getFirstHeader(“Set-Cookie”);

System.out.println(h1);

Header h2 = response.getLastHeader(“Set-Cookie”);

System.out.println(h2);

Header[] hs = response.getHeaders(“Set-Cookie”);

System.out.println(hs.length);

PV操作便是通过这样的过程来协调几个需要同步的进程的。

获得给定类型的所有头文件最有效的方式是HeaderIterator接口。

 

HttpResponse response = new
BasicHttpResponse(HttpVersion.HTTP_1_1,

HttpStatus.SC_OK, “OK”);

response.addHeader(“Set-Cookie”,

“c1=a; path=/; domain=localhost”);

response.addHeader(“Set-Cookie”,

“c2=b; path=\”/\”, c3=c; domain=\”localhost\””);

HeaderIterator it = response.headerIterator(“Set-Cookie”);

while (it.hasNext()) {

System.out.println(it.next());

}

 

还有一种方法是HeaderElementInterator

HttpResponse response = new
BasicHttpResponse(HttpVersion.HTTP_1_1,

HttpStatus.SC_OK, “OK”);

response.addHeader(“Set-Cookie”,

“c1=a; path=/; domain=localhost”);

response.addHeader(“Set-Cookie”,

“c2=b; path=\”/\”, c3=c; domain=\”localhost\””);

HeaderElementIterator it = new BasicHeaderElementIterator(

response.headerIterator(“Set-Cookie”));

while (it.hasNext()) {

HeaderElement elem = it.nextElement();

System.out.println(elem.getName() + ” = ” + elem.getValue());

NameValuePair[] params = elem.getParameters();

for (int i = 0; i < params.length; i++) {

System.out.println(” ” + params[i]);

}

}

1.4 Http实体

HTTP消息可以携带一个内容实体相关的请求或响应。实体中可以找到一些请求和响应,因为它们是可选的。要求使用包含实体被称为实体的请求。HTTP规范定义了两个实体封闭请求方法:POST和PUT。反应通常会附上一个内容的实体。

一个实体可以是可重复的,这意味着它的内容可以读过不止一次。这仅仅是可能与自包含实体(比如ByteArrayEntity或StringEntity)

StringEntity myEntity = new StringEntity(“important message”,

ContentType.create(“text/plain”, “UTF-8”));

System.out.println(myEntity.getContentType());

System.out.println(myEntity.getContentLength());

System.out.println(EntityUtils.toString(myEntity));

System.out.println(EntityUtils.toByteArray(myEntity).length);

1.5 释放资源

为了确保适当的释放系统资源必须密切与实体相关联的内容流或反应本身

CloseableHttpClient httpclient = HttpClients.createDefault();

HttpGet httpget = new HttpGet(“”);

CloseableHttpResponse response = httpclient.execute(httpget);

try {

HttpEntity entity = response.getEntity();

if (entity != null) {

InputStream instream = entity.getContent();

try {

// do something useful

} finally {

instream.close();

}

}

} finally {

response.close();

}

关闭内容流之间和关闭response的区别是前者将试图让底层连接活着,我们可以通过使用实体内容而后者立即关闭和丢弃的连接。

1.6 消费实体内容

推荐使用一个实体的内容的方法是利用其HttpEntity #
getContent()或HttpEntity
#writeTo(OutputStream)方法。HttpClient还带有EntityUtils的类,它暴露了一些静态方法更容易阅读的内容或信息从一个实体。而不是阅读io。InputStream直接,一个可以检索整个内容的身体在一个字符串和字节数组通过使用从这个类的方法。然而,不提倡使用EntityUtils除非响应实体来自受信任的HTTP服务器和已知的有限的长度。

CloseableHttpClient httpclient = HttpClients.createDefault();

HttpGet httpget = new HttpGet(“”);

CloseableHttpResponse response = httpclient.execute(httpget);

try {

HttpEntity entity = response.getEntity();

if (entity != null) {

long len = entity.getContentLength();

if (len != -1 && len < 2048) {

System.out.println(EntityUtils.toString(entity));

} else {

// Stream content out

}

}

} finally {

response.close();

}

在某些情况下可能需要不止一次能够阅读实体内容。在这种情况下,实体内容必须以某种方式缓冲,在内存或磁盘上。最简单的方式来完成,通过包装原始实体BufferedHttpEntity类。这将导致原始实体的内容读取到内存缓冲区。在所有其他方面,将原来的一个实体包装器。

File file = new File(“somefile.txt”);

FileEntity entity = new
FileEntity(file,ContentType.create(“text/plain”, “UTF-8”));

HttpPost httppost = new HttpPost(“”);

httppost.setEntity(entity);

请注意InputStreamEntity是不可重复的,因为它只能从底层数据流读取一次。一般建议来实现一个自定义HttpEntity类是独立的而不是使用通用InputStreamEntity。FileEntity可以是一个很好的起点。

相关文章