国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

python基礎(chǔ)及網(wǎng)絡(luò)爬蟲

這篇具有很好參考價值的文章主要介紹了python基礎(chǔ)及網(wǎng)絡(luò)爬蟲。希望對大家有所幫助。如果存在錯誤或未考慮完全的地方,請大家不吝賜教,您也可以點擊"舉報違法"按鈕提交疑問。

python基礎(chǔ)及網(wǎng)絡(luò)爬蟲,網(wǎng)絡(luò)爬蟲,python,爬蟲,開發(fā)語言

網(wǎng)絡(luò)爬蟲(Web crawler),有時候也叫網(wǎng)絡(luò)蜘蛛(Web spider),是指這樣一類程序——它們可以自動連接到互聯(lián)網(wǎng)站點,并讀取網(wǎng)頁中的內(nèi)容或者存放在網(wǎng)絡(luò)上的各種信息,并按照某種策略對目標(biāo)信息進(jìn)行采集(如對某個網(wǎng)站的全部頁面進(jìn)行讀取)。實際上,世界上最大的網(wǎng)站——Google搜索本身就建構(gòu)在爬蟲技術(shù)之上,像Google、百度這樣的搜索引擎會通過爬蟲程序來不斷更新自身的網(wǎng)站內(nèi)容和對其他網(wǎng)站的網(wǎng)絡(luò)索引。某種意義上說,我們每次通過搜索引擎查詢一個關(guān)鍵詞,就是在搜索引擎服務(wù)者的爬蟲程序所“爬”到的信息中進(jìn)行查詢。當(dāng)然,搜索引擎背后所使用的技術(shù)十分復(fù)雜,其爬蟲技術(shù)通常也不是一般個人所開發(fā)的小型程序所能比擬的,不過,爬蟲程序本身其實并不復(fù)雜,只要懂一點編程知識,了解一點HTTP和HTML,就可以寫出屬于自己的爬蟲,實現(xiàn)很多有意思的功能。

1.1 了解python

Guido van Rossum在1989年發(fā)明了Python,而Python的第一個公開發(fā)行版發(fā)行于1991年。因為Guido是一部電視劇“Monty Python’s Flying Circus”的愛好者,因此將這種新的腳本語言命名為Python。從最根本的角度來說,Python是一種解釋型、面向?qū)ο蟮摹討B(tài)數(shù)據(jù)類型的高級程序設(shè)計語言。注:Python是開源的,源代碼遵循GPL(GNU General Public License)協(xié)議,對所有個人開發(fā)者是完全開發(fā)的。
python的簡明語法和各式各樣的開源庫使得Python在網(wǎng)絡(luò)爬蟲方向得天獨厚,對于個人開發(fā)爬蟲程序而言,一般對于性能的要求不會太高,因此,雖然我們一般認(rèn)為Python在性能上難以與C/C++和Java相比,但總的來說,使用Python有助于更好更快地實現(xiàn)我們所需要的功能。另外,考慮到Python社區(qū)貢獻(xiàn)了很多各有特色的庫,很多都能直接拿來編寫我們的爬蟲程序,因此,Python的確是目前最好的選擇。

1.2 配置開發(fā)環(huán)境

在開始探索Python的世界之前,我們首先需要在自己的機器上安裝Python。值得高興的是,Python不僅免費、開源,而且堅持輕量級,安裝過程并不復(fù)雜。如果使用Linux系統(tǒng),可能已經(jīng)內(nèi)置了Python(雖然版本有可能是較舊的),使用蘋果電腦(macOS系統(tǒng))的話,一般也已經(jīng)安裝了命令行版本的Python 2.x。在 Linux 或 macOS X 系統(tǒng)上檢測 Python 3 是否安裝的最簡單辦法是使用終端命令,在terminal應(yīng)用中輸入python3命令并回車執(zhí)行,觀察是否有對應(yīng)的提示出現(xiàn)。至于Microsoft Windows系統(tǒng),在目前最新的Win10版本上也并沒有內(nèi)置Python,因此我們必須手動安裝。

1.2.1 windows上安裝

Python官網(wǎng)
python基礎(chǔ)及網(wǎng)絡(luò)爬蟲,網(wǎng)絡(luò)爬蟲,python,爬蟲,開發(fā)語言
這里需要注意的是選擇對應(yīng)架構(gòu)的版本,我們需要首先搞清楚自己的系統(tǒng)是32位還是64位的
根據(jù)安裝程序的導(dǎo)引,我們一步步進(jìn)行,就能完成整個安裝。如果最終看到類似圖1-2這樣的提示,就說明安裝成功。
python基礎(chǔ)及網(wǎng)絡(luò)爬蟲,網(wǎng)絡(luò)爬蟲,python,爬蟲,開發(fā)語言
這時檢查我們的“開始”菜單,就能看到Python3.x的應(yīng)用程序,其中有一個“IDLE”(意為“integrated development environment”)程序,我們可以單擊此項目開始在交互式窗口中使用Python Shell。
python基礎(chǔ)及網(wǎng)絡(luò)爬蟲,網(wǎng)絡(luò)爬蟲,python,爬蟲,開發(fā)語言
python基礎(chǔ)及網(wǎng)絡(luò)爬蟲,網(wǎng)絡(luò)爬蟲,python,爬蟲,開發(fā)語言

1.2.2 在Ubuntu和MacOS上安裝

Ubuntu是諸多Linux發(fā)行版中受眾較多的一個系列。我們可以通過Applicatons中的添加應(yīng)用程序進(jìn)行安裝,在其中搜索Python3,并在結(jié)果中找到對應(yīng)的包,進(jìn)行下載。如果安裝成功,我們將在Applications(應(yīng)用程序)中找到Python IDLE,進(jìn)入Python Shell中。
訪問 Python官網(wǎng)并下載對應(yīng)的 Mac 平臺安裝程序,根據(jù)安裝包的指示進(jìn)行操作,我們最終將看到類似的成功提示:python基礎(chǔ)及網(wǎng)絡(luò)爬蟲,網(wǎng)絡(luò)爬蟲,python,爬蟲,開發(fā)語言
關(guān)閉該窗口,并進(jìn)入Applications(或者是從LaunchPad頁面打開)中,我們就能找到Python Shell IDLE,啟動該程序,看到的結(jié)果應(yīng)該和Windows平臺上的結(jié)果類似。

1.3 Python基本語法介紹

1.3.1 hello world

輸出一行“Hello, World”,在C語言中需要的程序語句是這樣的:
python基礎(chǔ)及網(wǎng)絡(luò)爬蟲,網(wǎng)絡(luò)爬蟲,python,爬蟲,開發(fā)語言
而在Python里,可以用一行完成。
python基礎(chǔ)及網(wǎng)絡(luò)爬蟲,網(wǎng)絡(luò)爬蟲,python,爬蟲,開發(fā)語言

1.3.2 數(shù)據(jù)類型

在Python中內(nèi)置的主要數(shù)據(jù)類型包括:
1、Number,數(shù)值類型。可以是 Integers(1 和 2)、Float(1.1 和 1.2)、Fractions(1/2 和 2/3)、或者是 Complex Number(數(shù)學(xué)中的復(fù)數(shù))。
2、String,字符串,主要描述文本。
3、List,列表,一個包含元素的序列。
4、Tuple,元組,和列表類似,但是是不可變的。
5、Set,一個包含元素的集合,其中的元素是無序的。
6、Dict,字典,由一些鍵值對構(gòu)成。
7、Boolean,布爾類型,其值或為 True 或為 False
8、Byte,字節(jié), 例如一個以字節(jié)流表示的JPG文件

int和float之間,Python一般會使用是否有小數(shù)點來做區(qū)分
python基礎(chǔ)及網(wǎng)絡(luò)爬蟲,網(wǎng)絡(luò)爬蟲,python,爬蟲,開發(fā)語言
這里需要注意的是,將一個 int 與一個 int 相加將得到一個 int 。但將一個 int 與一個 float 相加將得到一個 float 。
這是因為Python會 把 int 強制轉(zhuǎn)換為 float 以進(jìn)行加法運算:python基礎(chǔ)及網(wǎng)絡(luò)爬蟲,網(wǎng)絡(luò)爬蟲,python,爬蟲,開發(fā)語言
使用內(nèi)置的關(guān)鍵字進(jìn)行int與float之間的強制轉(zhuǎn)換是經(jīng)常用到的:python基礎(chǔ)及網(wǎng)絡(luò)爬蟲,網(wǎng)絡(luò)爬蟲,python,爬蟲,開發(fā)語言
Python2中曾有int和long(長整數(shù)類型)的區(qū)分,但在Python3中,int吸收了2.x版本中的int和long,不再對較大的整數(shù)和較小的整數(shù)做區(qū)分。有了數(shù)值,我們就有了數(shù)值運算:

python基礎(chǔ)及網(wǎng)絡(luò)爬蟲,網(wǎng)絡(luò)爬蟲,python,爬蟲,開發(fā)語言 | python基礎(chǔ)及網(wǎng)絡(luò)爬蟲,網(wǎng)絡(luò)爬蟲,python,爬蟲,開發(fā)語言
Python中還有相對比較特殊的分?jǐn)?shù)和復(fù)數(shù),分?jǐn)?shù)可以通過fractions模塊中的Fraction對象構(gòu)造:python基礎(chǔ)及網(wǎng)絡(luò)爬蟲,網(wǎng)絡(luò)爬蟲,python,爬蟲,開發(fā)語言
復(fù)數(shù)可以用使用函數(shù) complex(real, imag) 或者是帶有后綴j的浮點數(shù)來創(chuàng)建:python基礎(chǔ)及網(wǎng)絡(luò)爬蟲,網(wǎng)絡(luò)爬蟲,python,爬蟲,開發(fā)語言
布爾類型本身非常簡單,Python中的布爾類型以True和False兩個常量為值:python基礎(chǔ)及網(wǎng)絡(luò)爬蟲,網(wǎng)絡(luò)爬蟲,python,爬蟲,開發(fā)語言
不過Python中對布爾類型和if else判斷的結(jié)合比較靈活
在介紹字符串之前,我們先對list(列表)和tuple(元組)做一個簡單的了解,因為list涉及一個Python中非常重要的概念:可迭代對象。對于列表而言,序列中的每一個元素都在一個固定的位置上(稱之為索引),索引從“0”開始。列表中的元素可以是任何數(shù)據(jù)類型,Python中列表對應(yīng)的是中括號“[]”的表示形式。python基礎(chǔ)及網(wǎng)絡(luò)爬蟲,網(wǎng)絡(luò)爬蟲,python,爬蟲,開發(fā)語言
列表切片(slice)可以簡單地描述為從列表中取一部分的操作,通過指定兩個索引值,可以從列表中獲取稱作“切片”的某個部分。返回值是一個新列表,從第一個索引開始,知道第二個索引結(jié)束(不包含第二個索引的元素),列表切片的使用非常靈活:
python基礎(chǔ)及網(wǎng)絡(luò)爬蟲,網(wǎng)絡(luò)爬蟲,python,爬蟲,開發(fā)語言
向一個list中添加新元素的方法也很多樣,常見的包括:
python基礎(chǔ)及網(wǎng)絡(luò)爬蟲,網(wǎng)絡(luò)爬蟲,python,爬蟲,開發(fā)語言
這里要注意的是extend接受一個列表,并把其元素分別添加到原有的列表,類似“擴(kuò)展”。而append是把參數(shù)(參數(shù)有可能也是一個列表)作為一個元素整體添加到原有的列表中。insert() 方法會將單個元素插入到列表中。第一個參數(shù)是列表中將插入的位置(索引)。
從列表中刪除元素,可使用的方法也不少:python基礎(chǔ)及網(wǎng)絡(luò)爬蟲,網(wǎng)絡(luò)爬蟲,python,爬蟲,開發(fā)語言
元組(tuple)與列表非常相似,最大的區(qū)別在于:1,元組是不可修改的,定義之后就“固定”了。2,元組在形式上是用“()”這樣的圓括號括起來的。由于元組是“凍結(jié)”的,所以不能插入或刪除元素。其他一些操作與列表類似:python基礎(chǔ)及網(wǎng)絡(luò)爬蟲,網(wǎng)絡(luò)爬蟲,python,爬蟲,開發(fā)語言
【提示】元素可修改與不可修改是列表與元組最大(或者說唯一)的區(qū)別,基本上除了修改內(nèi)部元素的操作,其他列表適用的操作都可以用于元組。
在創(chuàng)建一個字符串時,我們將其用引號括起來,引號可以是單引號(')或者雙引號("),兩者沒有區(qū)別。字符串也是一個可迭代對象,因此,與取得列表中的元素一樣,也可以通過下標(biāo)記號取得字符串中的某個字符,一些適用于list的東西同樣適用于str:
python基礎(chǔ)及網(wǎng)絡(luò)爬蟲,網(wǎng)絡(luò)爬蟲,python,爬蟲,開發(fā)語言
集合的特點是無序且值唯一,創(chuàng)建集合和操作集合的常見方式包括:
python基礎(chǔ)及網(wǎng)絡(luò)爬蟲,網(wǎng)絡(luò)爬蟲,python,爬蟲,開發(fā)語言
python基礎(chǔ)及網(wǎng)絡(luò)爬蟲,網(wǎng)絡(luò)爬蟲,python,爬蟲,開發(fā)語言
字典(dict)相對于列表、元組和集合,會顯得稍微復(fù)雜一點。Python中的字典是鍵值對(key-value)的無序集合。在形式上也和集合類似,創(chuàng)建字典和操作字典的基本方式如下:
python基礎(chǔ)及網(wǎng)絡(luò)爬蟲,網(wǎng)絡(luò)爬蟲,python,爬蟲,開發(fā)語言
python基礎(chǔ)及網(wǎng)絡(luò)爬蟲,網(wǎng)絡(luò)爬蟲,python,爬蟲,開發(fā)語言文章來源地址http://www.zghlxwxcb.cn/news/detail-839015.html

到了這里,關(guān)于python基礎(chǔ)及網(wǎng)絡(luò)爬蟲的文章就介紹完了。如果您還想了解更多內(nèi)容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來自互聯(lián)網(wǎng)用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載,請注明出處: 如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實不符,請點擊違法舉報進(jìn)行投訴反饋,一經(jīng)查實,立即刪除!

領(lǐng)支付寶紅包贊助服務(wù)器費用

相關(guān)文章

  • Python網(wǎng)絡(luò)通信-python爬蟲基礎(chǔ)

    Python網(wǎng)絡(luò)通信-python爬蟲基礎(chǔ)

    1.1、安裝requests模塊 打開pycharm 安裝成功會提示successfully 1.2、發(fā)送GET請求 簡單請求(以京東舉例) 運行結(jié)果 添加請求頭(以百度舉例) 為什么要添加請求頭呢,因為有些網(wǎng)頁在你請求的時候會檢查你是否有請求頭,如果沒有請求頭,就不會返回正常的內(nèi)容,下面我來驗證

    2024年01月24日
    瀏覽(21)
  • 快速上手Python爬蟲:網(wǎng)絡(luò)爬蟲基礎(chǔ)介紹及示例代碼

    網(wǎng)絡(luò)爬蟲,又稱為 Web 爬蟲、網(wǎng)絡(luò)蜘蛛、網(wǎng)絡(luò)機器人,在英文中被稱為 web crawler,是一種自動化程序,能夠在互聯(lián)網(wǎng)上自動獲取數(shù)據(jù)、抓取信息,并將其存儲在本地或遠(yuǎn)程數(shù)據(jù)庫中。它可以幫助我們自動化處理大量數(shù)據(jù),提高工作效率,更好地利用互聯(lián)網(wǎng)資源。 現(xiàn)代互聯(lián)網(wǎng)上

    2024年02月09日
    瀏覽(26)
  • Python網(wǎng)絡(luò)基礎(chǔ)爬蟲-python基本語法

    Python網(wǎng)絡(luò)基礎(chǔ)爬蟲-python基本語法

    熟悉C/C++語言的人們可能很希望Python提供switch語句,但Python中并沒有這個,也沒有這個語句結(jié)構(gòu)。但是可以通過if-elif-elif-…這樣的結(jié)構(gòu)代替,或者使用字典實現(xiàn)。比如: 這段代碼實現(xiàn)的功能是,輸入一個運算符,再輸入兩個數(shù)字,返回其計算的結(jié)果。比如輸入“+12”,

    2024年03月21日
    瀏覽(25)
  • Python網(wǎng)絡(luò)爬蟲基礎(chǔ)進(jìn)階到實戰(zhàn)教程

    Python網(wǎng)絡(luò)爬蟲基礎(chǔ)進(jìn)階到實戰(zhàn)教程

    網(wǎng)絡(luò)爬蟲是指一種程序自動獲取網(wǎng)頁信息的方式,它能夠自動化地獲取互聯(lián)網(wǎng)上的數(shù)據(jù)。通過使用網(wǎng)絡(luò)爬蟲,我們可以方便地獲取到網(wǎng)絡(luò)上的各種數(shù)據(jù),例如網(wǎng)頁鏈接、文本、圖片、音頻、視頻等等。 網(wǎng)頁是由HTML標(biāo)簽和內(nèi)容組成,HTML標(biāo)簽通過標(biāo)簽屬性可以定位到需要的內(nèi)容

    2024年02月10日
    瀏覽(22)
  • 【頭歌】——數(shù)據(jù)分析與實踐-python-網(wǎng)絡(luò)爬蟲-Scrapy爬蟲基礎(chǔ)-網(wǎng)頁數(shù)據(jù)解析-requests 爬蟲-JSON基礎(chǔ)

    第1關(guān) 爬取網(wǎng)頁的表格信息 第2關(guān) 爬取表格中指定單元格的信息 第3關(guān) 將單元格的信息保存到列表并排序 第4關(guān) 爬取div標(biāo)簽的信息 第5關(guān) 爬取單頁多個div標(biāo)簽的信息 第6關(guān) 爬取多個網(wǎng)頁的多個div標(biāo)簽的信息 第1關(guān) Scarpy安裝與項目創(chuàng)建 第2關(guān) Scrapy核心原理 第1關(guān) XPath解析網(wǎng)頁 第

    2024年01月22日
    瀏覽(29)
  • Python3網(wǎng)絡(luò)爬蟲開發(fā)實戰(zhàn)

    1.1 URI和URL URI:統(tǒng)一資源標(biāo)識符(Uniform Resource Identifier) URL:統(tǒng)一資源定位符(Uniform Resource Locator) URN:統(tǒng)一資源名稱(Uniform Resource Name) 1.2 HTTP和HTTPS HTTP:超文本傳輸協(xié)議(Hypertext Transfer Protocol) HTTPS:以安全為目標(biāo)的HTTP通道(Hypertext Transfer Protocol) 1.3 請求(Requset) 1.3.1 請求方式 函數(shù)

    2024年02月04日
    瀏覽(43)
  • 〖Python網(wǎng)絡(luò)爬蟲實戰(zhàn)②〗- Web網(wǎng)頁基礎(chǔ)

    訂閱:新手可以訂閱我的其他專欄。免費階段訂閱量1000+ ????????????????python項目實戰(zhàn) ???????????????? Python編程基礎(chǔ)教程系列(零基礎(chǔ)小白搬磚逆襲) 說明:本專欄持續(xù)更新中,目前專欄免費訂閱,在轉(zhuǎn)為付費專欄前訂閱本專欄的,可以免費訂閱付費專欄,

    2023年04月26日
    瀏覽(50)
  • Python 網(wǎng)絡(luò)爬蟲(二):HTTP 基礎(chǔ)知識

    Python 網(wǎng)絡(luò)爬蟲(二):HTTP 基礎(chǔ)知識

    《Python入門核心技術(shù)》專欄總目錄?點這里

    2024年02月04日
    瀏覽(24)
  • 【Python爬蟲開發(fā)基礎(chǔ)⑩】selenium概述

    ?? 個人主頁 :為夢而生~ 關(guān)注我一起學(xué)習(xí)吧! ?? 專欄 :python網(wǎng)絡(luò)爬蟲從基礎(chǔ)到實戰(zhàn) 歡迎訂閱!后面的內(nèi)容會越來越有意思~ ?? 往期推薦 : ??前面比較重要的 基礎(chǔ)內(nèi)容 : 【Python爬蟲開發(fā)基礎(chǔ)⑥】計算機網(wǎng)絡(luò)基礎(chǔ)(Web和HTTP) 【Python爬蟲開發(fā)基礎(chǔ)⑦】urllib庫的基本使用

    2024年02月12日
    瀏覽(16)
  • Python基礎(chǔ)入門之網(wǎng)絡(luò)爬蟲利器:lxml詳解

    Python基礎(chǔ)入門之網(wǎng)絡(luò)爬蟲利器:lxml詳解

    導(dǎo)語:網(wǎng)絡(luò)爬蟲是數(shù)據(jù)采集和信息提取的重要工具之一。在Python中,lxml庫是一款功能強大且高效的網(wǎng)絡(luò)爬蟲工具,具有解析HTML和XML文檔、XPath定位、數(shù)據(jù)提取等功能。本文將詳細(xì)介紹lxml庫的使用方法,并提供相應(yīng)的代碼示例。 lxml庫 lxml是一個HTML/XML的解析器,主要的功能是

    2024年02月07日
    瀏覽(23)

覺得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請作者喝杯咖啡吧~博客贊助

支付寶掃一掃領(lǐng)取紅包,優(yōu)惠每天領(lǐng)

二維碼1

領(lǐng)取紅包

二維碼2

領(lǐng)紅包