国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

Python爬蟲學(xué)習(xí)筆記(一)————網(wǎng)頁基礎(chǔ)

這篇具有很好參考價值的文章主要介紹了Python爬蟲學(xué)習(xí)筆記(一)————網(wǎng)頁基礎(chǔ)。希望對大家有所幫助。如果存在錯誤或未考慮完全的地方,請大家不吝賜教,您也可以點擊"舉報違法"按鈕提交疑問。

目錄

1.網(wǎng)頁的組成

2.HTML

(1)標簽

(2)比較重要且常用的標簽:

①列表標簽

②超鏈接標簽 (a標簽)

③img標簽:用于渲染,圖片資源的標簽

④div標簽和span標簽

(3)屬性

(4)常用的語義化標簽

(5)元素的分類及特點

①塊元素

②行內(nèi)元素

③行內(nèi)塊元素

(6)文件路徑

(7)HTML的基本結(jié)構(gòu)

(8)節(jié)點樹及節(jié)點間的關(guān)系

3.CSS

(1)引入css的方法

(2)選擇器

(3)單位

(4)css三大特性


1.網(wǎng)頁的組成

網(wǎng)頁可分為三個部分——HTML、CSS和JavaScript。如果把網(wǎng)頁比作一個人的話,HTML相當(dāng)于骨架,JavaScript相當(dāng)于肌肉,CSS相當(dāng)于皮膚,三者結(jié)合起來才能形成一個完善的網(wǎng)頁。

2.HTML

HTML是用來描述網(wǎng)頁的一種語言,全稱為超文本標記語言。網(wǎng)頁包含文字、按鈕、圖片和視頻等各種復(fù)雜的元素,其基礎(chǔ)架構(gòu)就是HTML。不同類型的文字通過不同類型的標簽來表示 ,如圖片用img標簽表示,視頻用video標簽表示,段落用p 標簽表示 ,他們之間的布局又常通過布局標簽 div 嵌套組合而戚成,各種標簽通過不同的排列和嵌套才形成了網(wǎng)頁的框架。

我們可以隨意打開一個網(wǎng)站,比如京東首頁,然后單擊鼠標右鍵選擇“檢查元素”菜單或者按 F12,即可打開瀏覽器開發(fā)者工具,接著切換到 Elements 面板,這時候呈現(xiàn)的就是京東網(wǎng)首頁對應(yīng)的 HTML,它包含了一系列標簽,瀏覽器解析這些標簽后,便會在網(wǎng)頁中將它們渲染成一個個節(jié)點,這便形成了我們平??吹降木W(wǎng)頁。

(1)標簽

是由w3c提前制定好的一些針對于html文檔的標記符號,這些符號是具備各自的含義的。具體在html中的變現(xiàn)形式 由 < > 括起來的對象 比如: html ?head ?body

需要注意的是:

? ? ? ? ①標簽通常是成對出現(xiàn)的,但也有極少部分只有開始標簽,沒有結(jié)束標簽 ?稱作 單標簽或者空標簽 比如:meta

? ? ? ? ②標簽是允許嵌套的,但是要符合嵌套的標準

通常,我們也會將標簽稱作為元素 ,例如:根元素 ?、head元素等

(2)比較重要且常用的標簽:
①列表標簽

?1>有序列表,表示如下:

<ol>
? ? <li></li>
? ? <li></li>
? ? <li></li>
</ol>? ? ? ??

2>無序列表,表示如下:

<ul>
? ? <li></li>
? ? <li></li>
? ? <li></li>
</ul>? ? ? ? ?

3>定義列表,表示如下:

<dl>
? ? <dt></dt>
? ? <dd></dd>
? ? <dt></dt>
? ? <dd></dd>
</dl>

注:列表之間是可以相互嵌套的

②超鏈接標簽 (a標簽)

? ? ? ? ? ? ? ? 1>可以訪問到外部網(wǎng)絡(luò)的資源

? ? ? ? ? ? ? ? ?2>可以訪問本地網(wǎng)頁資源

? ? ? ? ? ? ? ? 3>可以作為錨點,在當(dāng)前頁面指定位置進行定位跳轉(zhuǎn)

③img標簽:用于渲染,圖片資源的標簽
④div標簽和span標簽

小tip:href和src的區(qū)別:?

href和src都是指向外部資源地址或者本地資源地址

不同點:

href屬性:

? ? ? ? 1>通過該屬性去關(guān)聯(lián)另一份外部資源文件

? ? ? ? 2>如果被關(guān)聯(lián)的資源文件,在頁面渲染時需要用到該資源中的內(nèi)容時,它會下載該資源,

? ? ? ? 3>如果需要下載資源文件內(nèi)容時,并行下載的方式,不會阻塞頁面的渲染

src屬性:

? ? ? ? 1>通過該屬性去訪問到對應(yīng)的外部資源,并替換掉該標簽的內(nèi)容

? ? ? ? 2>src屬性肯定是會下載對應(yīng)路徑的資源的

? ? ? ? 3>src的下載不是并行下載,在頁面渲染時如果遇到src那么會將該資源全部下載完畢并且解析后,才會繼續(xù)渲染頁面后續(xù)的內(nèi)容(src會阻塞頁面的渲染)

(3)屬性

通常格式:key=value(注:有時候只有key沒有value,即表示邏輯值的時候)

①全局屬性:全部元素都具備(例id,class,style等等)

②局部屬性:只能某些元素使用

(4)常用的語義化標簽

標題標簽(h1-h6標簽)、段落標簽(p標簽)、i/em標簽(斜體)、b/strong標簽(粗體)、blockquote/q標簽(引用)等等。

(5)元素的分類及特點
①塊元素

? ? ? ? 1>塊元素具有布局特點,一般常用頁面的整體布局

? ? ? ? 2>塊元素獨占(其父元素)頁面的一行

? ? ? ? 3>塊元素可以嵌套任何類型的元素(除p元素以外,p元素中不能嵌套任何的塊元素)

? ? ? ? 4>塊元素可以設(shè)置寬,高 ?默認的寬度是其父元素的寬度

? ? ? ? 5>塊元素默認高度是由內(nèi)容決定的

②行內(nèi)元素

? ? ? ? 1>正常情況下,行內(nèi)元素是不會換行的

? ? ? ? 2>行內(nèi)元素會在一行排不下時進行換行

? ? ? ? 3>行內(nèi)元素不能設(shè)置寬 高 ?行內(nèi)元素的寬和高都是由其內(nèi)容決定的

? ? ? ? 4>行內(nèi)元素一般不會嵌套塊級元素,大多數(shù)是嵌套文本或者其他的行內(nèi)元素

③行內(nèi)塊元素

? ? ? ? 1.行內(nèi)塊元素不會獨占一行,在一行排列

? ? ? ? 2.可以設(shè)置寬高(默認是內(nèi)容的寬 高)

注:元素之間可以相互進行轉(zhuǎn)換,使用diaplay:block(inline/inline-block);

(6)文件路徑

①相對路徑:與當(dāng)前的文件是沒有聯(lián)系的,不是根據(jù)當(dāng)前該文件所處的位置去訪問對應(yīng)的資源。

②絕對路徑:從當(dāng)前文件出發(fā)去尋找其他的資源,當(dāng)前的位置為中心。

(7)HTML的基本結(jié)構(gòu)
<!DOCTYPE html>
<html>
<head>
	<meta charset="UTF-8">
    <title>This is a Demo</title>
</head> 
<body>
    <div id="container">
        <div class="wrapper">
            <h2 class="titie">Hello Morld</h2>
        	<p class="text">Hello, this is a parpgtaph.</p>
        </div>
    </div>
</body>    
</html>
(8)節(jié)點樹及節(jié)點間的關(guān)系

? 在HTML中,所有標簽定義的內(nèi)容都是節(jié)點,這些節(jié)點構(gòu)成一個 HTML節(jié)點樹,也叫HTMLDOM樹。

? 先來看一下什么是 DOM。DOM 是 W3C(萬維網(wǎng)聯(lián)盟)的標準,英文全稱是 Document Object Model,即文檔對象模型。它定義了訪問 HTML 和 XML 文檔的標準。根據(jù) W3C 的HTMLDOM 標準,HTML 文檔中的所有內(nèi)容都是節(jié)點。

  • 整個網(wǎng)站文檔是一個文檔節(jié)點。
  • 每個 html 標簽對應(yīng)一個根節(jié)點,即上例中的 html 標簽,它屬于一個根節(jié)點。
  • 節(jié)點內(nèi)的文本是文本節(jié)點,比如 a 節(jié)點代表一個超鏈接,它內(nèi)部的文本也被認為是一個文本節(jié)點。
  • 每個節(jié)點的屬性是屬性節(jié)點,比如 a 節(jié)點有一個 href 屬性,它就是一個屬性節(jié)點。
  • 注釋是注釋節(jié)點,在 HTML 中有特殊的語法會被解析為注釋,它也會對應(yīng)一個節(jié)點。

因此,HTML DOM 將 HTML 文檔視作樹結(jié)構(gòu),這種結(jié)構(gòu)被稱為節(jié)點樹,如下圖所示??赏ㄟ^這棵樹訪問所有節(jié)點??梢孕薷幕騽h除它們的內(nèi)容,也可以創(chuàng)建新的元素。這顆節(jié)點樹展示了節(jié)點的集合,以及它們之間的聯(lián)系。這棵樹從根節(jié)點開始,然后在樹的最低層級向文本節(jié)點長出枝條:

Python爬蟲學(xué)習(xí)筆記(一)————網(wǎng)頁基礎(chǔ),python,爬蟲,網(wǎng)絡(luò)爬蟲,爬山算法,學(xué)習(xí),json

節(jié)點樹中的節(jié)點彼此之間都有層級關(guān)系。常用父節(jié)點、子節(jié)點和同級節(jié)點描述這種關(guān)系。父節(jié)點擁有子節(jié)點,位于相同層級上的子節(jié)點稱為同級節(jié)點(兄弟或姐妹)。

  • 在節(jié)點樹中,頂端的節(jié)點稱為根節(jié)點
  • 根節(jié)點之外的每個節(jié)點都有一個父節(jié)點
  • 節(jié)點可以有任何數(shù)量的子節(jié)點
  • 葉子是沒有子節(jié)點的節(jié)點
  • 同級節(jié)點是擁有相同父節(jié)點的節(jié)點

下面的圖片展示出節(jié)點樹的一個部分,以及節(jié)點間的關(guān)系:

Python爬蟲學(xué)習(xí)筆記(一)————網(wǎng)頁基礎(chǔ),python,爬蟲,網(wǎng)絡(luò)爬蟲,爬山算法,學(xué)習(xí),json

3.CSS

(1)引入css的方法

①行內(nèi)樣式:直接在標簽內(nèi)通過style=""設(shè)置。

②內(nèi)聯(lián)樣式:在head標簽里寫style標簽,在其編寫樣式即可。

③外聯(lián)樣式:通過link標簽引入外部的css文件。

(2)選擇器

①基礎(chǔ)選擇器:元素選擇器、id選擇器、類選擇器、通配符選擇器

②復(fù)合選擇器:交集選擇器、并集選擇器

③關(guān)系選擇器:子代選擇器、后代選擇器、兄弟選擇器

④屬性選擇器:例:[tytle="name"]

⑤偽類選擇器:
? ? ? ? 1>結(jié)構(gòu)偽類( ?:first-of-type ?| ?:last-of-type ?| ?:nth-of-type() ?)

? ? ? ? 2>動態(tài)偽類( ?link ?| ?hover ?| ?active ?| ?visited ?)

⑥偽元素選擇器( ?::first-letter ?| ?::first-line ?| ?::selection ?| ?::before ?| ?::after ?)

(3)單位

①長度單位:px、em、rem、vh和vw

②比例單位:%

③顏色單位:顏色單詞、RGB格式、RGBA格式、#十六進制

(4)css三大特性

①層疊性:當(dāng)有多個相同選擇器或者同類型的選擇器選中同一個元素,并為其設(shè)置同一個樣式屬性的不同屬性值,會優(yōu)先使用靠近元素的選擇器所設(shè)置的樣式。

注意:當(dāng)選擇器權(quán)重(優(yōu)先級)不同時,無法通過層疊性解決樣式?jīng)_突

②優(yōu)先級(權(quán)重)

通配符選擇器<元素選擇器<類/偽類選擇器<id選擇器<行內(nèi)樣式<!important(無限大)

③繼承性:子元素(后代元素)繼承父元素(祖先元素)已經(jīng)定義過的屬性(即字體相關(guān) 、字體顏色、 列表相關(guān)的、文本相關(guān)的等)。
?文章來源地址http://www.zghlxwxcb.cn/news/detail-553698.html

到了這里,關(guān)于Python爬蟲學(xué)習(xí)筆記(一)————網(wǎng)頁基礎(chǔ)的文章就介紹完了。如果您還想了解更多內(nèi)容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來自互聯(lián)網(wǎng)用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載,請注明出處: 如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實不符,請點擊違法舉報進行投訴反饋,一經(jīng)查實,立即刪除!

領(lǐng)支付寶紅包贊助服務(wù)器費用

相關(guān)文章

  • Python爬蟲基礎(chǔ):使用requests模塊獲取網(wǎng)頁內(nèi)容

    Python爬蟲基礎(chǔ):使用requests模塊獲取網(wǎng)頁內(nèi)容

    了解如何使用Python中的requests模塊進行網(wǎng)頁內(nèi)容獲取,包括獲取網(wǎng)頁步驟、代碼實現(xiàn)、狀態(tài)碼查看、提取信息等。

    2024年02月22日
    瀏覽(25)
  • Python爬蟲基礎(chǔ)(三):使用Selenium動態(tài)加載網(wǎng)頁

    Python爬蟲基礎(chǔ)(三):使用Selenium動態(tài)加載網(wǎng)頁

    Python爬蟲基礎(chǔ)(一):urllib庫的使用詳解 Python爬蟲基礎(chǔ)(二):使用xpath與jsonpath解析爬取的數(shù)據(jù) Python爬蟲基礎(chǔ)(三):使用Selenium動態(tài)加載網(wǎng)頁 Python爬蟲基礎(chǔ)(四):使用更方便的requests庫 Python爬蟲基礎(chǔ)(五):使用scrapy框架 (1)Selenium是一個用于Web應(yīng)用程序測試的工具。

    2024年02月06日
    瀏覽(30)
  • Python網(wǎng)絡(luò)爬蟲庫:輕松提取網(wǎng)頁數(shù)據(jù)的利器

    Python網(wǎng)絡(luò)爬蟲庫:輕松提取網(wǎng)頁數(shù)據(jù)的利器

    ? ? ? 網(wǎng)絡(luò)爬蟲是一種自動化程序,它可以通過訪問網(wǎng)頁并提取所需的數(shù)據(jù)。Python是一種流行的編程語言,擁有許多強大的網(wǎng)絡(luò)爬蟲庫。在本文中,我們將介紹幾個常用的Python網(wǎng)絡(luò)爬蟲庫以及它們的使用。 Requests庫 Requests是一個簡單而優(yōu)雅的HTTP庫,可以輕松地發(fā)送HTTP請求。

    2024年02月09日
    瀏覽(25)
  • python爬取豆瓣電影排行前250獲取電影名稱和網(wǎng)絡(luò)鏈接[靜態(tài)網(wǎng)頁]————爬蟲實例(1)

    python爬取豆瓣電影排行前250獲取電影名稱和網(wǎng)絡(luò)鏈接[靜態(tài)網(wǎng)頁]————爬蟲實例(1)

    目錄 1.算法原理: 2.程序流程: 3.程序代碼: 4.運行結(jié)果(部分結(jié)果展示): 5.結(jié)果分析: (1)利用import命令導(dǎo)入模塊或者導(dǎo)入模塊中的對象; ①利用requests庫獲取數(shù)據(jù); ②用BeautifulSoup庫將網(wǎng)頁源代碼轉(zhuǎn)換成BeautifulSoup類型,以便于數(shù)據(jù)的解析和處理; ③用time庫進行時間延時

    2023年04月16日
    瀏覽(93)
  • Python網(wǎng)絡(luò)通信-python爬蟲基礎(chǔ)

    Python網(wǎng)絡(luò)通信-python爬蟲基礎(chǔ)

    1.1、安裝requests模塊 打開pycharm 安裝成功會提示successfully 1.2、發(fā)送GET請求 簡單請求(以京東舉例) 運行結(jié)果 添加請求頭(以百度舉例) 為什么要添加請求頭呢,因為有些網(wǎng)頁在你請求的時候會檢查你是否有請求頭,如果沒有請求頭,就不會返回正常的內(nèi)容,下面我來驗證

    2024年01月24日
    瀏覽(21)
  • Python網(wǎng)絡(luò)爬蟲逆向分析爬取動態(tài)網(wǎng)頁、使用Selenium庫爬取動態(tài)網(wǎng)頁、?編輯將數(shù)據(jù)存儲入MongoDB數(shù)據(jù)庫

    Python網(wǎng)絡(luò)爬蟲逆向分析爬取動態(tài)網(wǎng)頁、使用Selenium庫爬取動態(tài)網(wǎng)頁、?編輯將數(shù)據(jù)存儲入MongoDB數(shù)據(jù)庫

    目錄 逆向分析爬取動態(tài)網(wǎng)頁 了解靜態(tài)網(wǎng)頁和動態(tài)網(wǎng)頁區(qū)別 1.判斷靜態(tài)網(wǎng)頁 ?2.判斷動態(tài)網(wǎng)頁 ?逆向分析爬取動態(tài)網(wǎng)頁 使用Selenium庫爬取動態(tài)網(wǎng)頁 安裝Selenium庫以及下載瀏覽器補丁 頁面等待 ?頁面操作 1.填充表單 2.執(zhí)行JavaScript 元素選取 Selenium庫的find_element的語法使用格式如下

    2024年02月15日
    瀏覽(63)
  • Python網(wǎng)絡(luò)基礎(chǔ)爬蟲-python基本語法

    Python網(wǎng)絡(luò)基礎(chǔ)爬蟲-python基本語法

    熟悉C/C++語言的人們可能很希望Python提供switch語句,但Python中并沒有這個,也沒有這個語句結(jié)構(gòu)。但是可以通過if-elif-elif-…這樣的結(jié)構(gòu)代替,或者使用字典實現(xiàn)。比如: 這段代碼實現(xiàn)的功能是,輸入一個運算符,再輸入兩個數(shù)字,返回其計算的結(jié)果。比如輸入“+12”,

    2024年03月21日
    瀏覽(23)
  • python基礎(chǔ)及網(wǎng)絡(luò)爬蟲

    python基礎(chǔ)及網(wǎng)絡(luò)爬蟲

    網(wǎng)絡(luò)爬蟲(Web crawler) ,有時候也叫網(wǎng)絡(luò)蜘蛛(Web spider),是指這樣一類 程序 ——它們可以自動連接到互聯(lián)網(wǎng)站點,并讀取網(wǎng)頁中的內(nèi)容或者存放在網(wǎng)絡(luò)上的各種信息,并按照某種策略對目標信息進行采集(如對某個網(wǎng)站的全部頁面進行讀?。?。實際上,世界上最大的網(wǎng)站——

    2024年03月12日
    瀏覽(58)
  • 【100天精通python】Day41:python網(wǎng)絡(luò)爬蟲開發(fā)_爬蟲基礎(chǔ)入門

    目錄 ?專欄導(dǎo)讀? 1網(wǎng)絡(luò)爬蟲概述 1.1?工作原理 1.2 應(yīng)用場景 1.3 爬蟲策略

    2024年02月12日
    瀏覽(31)
  • Python爬蟲學(xué)習(xí)筆記(二)————爬蟲簡介

    目錄 1.爬蟲概念 2.爬蟲核心 3.爬蟲分類 ?通用爬蟲 聚焦爬蟲 4.反爬手段 (1)User‐Agent (2)代理IP (3)驗證碼訪問 (4)動態(tài)加載網(wǎng)頁 (5)數(shù)據(jù)加密 1.爬蟲概念 通過一個程序,根據(jù)Url(http://www.taobao.com)進行爬取網(wǎng)頁,獲取有用信息。 使用程序模擬瀏覽器,去向服務(wù)器發(fā)送

    2024年02月15日
    瀏覽(21)

覺得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請作者喝杯咖啡吧~博客贊助

支付寶掃一掃領(lǐng)取紅包,優(yōu)惠每天領(lǐng)

二維碼1

領(lǐng)取紅包

二維碼2

領(lǐng)紅包