国产无码综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

^{<thead id="youiz"><b id="youiz"></b></thead>}

<tfoot id="youiz"><s id="youiz"><sup id="youiz"></sup></s></tfoot>

基于Python的網(wǎng)絡(luò)爬蟲及數(shù)據(jù)處理---智聯(lián)招聘人才招聘特征分析與挖掘的算法實(shí)現(xiàn)

2年前作者：01圖靈科技分類：Toy博客閱讀(22)違法舉報(bào)

這篇具有很好參考價(jià)值的文章主要介紹了基于Python的網(wǎng)絡(luò)爬蟲及數(shù)據(jù)處理---智聯(lián)招聘人才招聘特征分析與挖掘的算法實(shí)現(xiàn)。希望對大家有所幫助。如果存在錯(cuò)誤或未考慮完全的地方，請大家不吝賜教，您也可以點(diǎn)擊"舉報(bào)違法"按鈕提交疑問。

收藏和點(diǎn)贊，您的關(guān)注是我創(chuàng)作的動力

概要

??隨著科學(xué)技術(shù)的發(fā)展，人類進(jìn)入了互聯(lián)網(wǎng)時(shí)代，不僅數(shù)據(jù)量龐大，而且數(shù)據(jù)種類繁多，Python簡單易學(xué), 語法清晰，在數(shù)據(jù)操作方面有著一定優(yōu)勢，成為了數(shù)據(jù)采集和可視化領(lǐng)域的熱門語言。本論文主要是使用Python來作為開發(fā)語言，并對網(wǎng)上招聘信息進(jìn)行數(shù)據(jù)采集和可視化，了解和研究網(wǎng)上招聘的現(xiàn)狀。采集數(shù)據(jù)時(shí)使用Scrapy抓取網(wǎng)頁招聘信息，采集智聯(lián)招聘職位數(shù)據(jù)，并將初始數(shù)據(jù)儲存到MySQL數(shù)據(jù)庫中，并得到可視化結(jié)果，從而在短時(shí)間內(nèi)了解數(shù)據(jù)背后的價(jià)值與規(guī)律。
關(guān)鍵詞：Python 數(shù)據(jù)采集 Scrapy框架 MySQL數(shù)據(jù)庫

一、研究背景與意義

??抓不住關(guān)鍵信息，錯(cuò)失了尋找工作的良機(jī)。另一方面，企業(yè)的招聘方式已經(jīng)漸漸跟不上時(shí)代的步伐。人才是一個(gè)企業(yè)甚至國家振興的動力，人才的招聘和引進(jìn)關(guān)系到一個(gè)企業(yè)是否能夠在激烈的社會競爭中脫穎而出，是否招募到足夠的人才決定了企業(yè)的興衰。所以，如何招募到所需要的人才資源成為了一個(gè)企業(yè)發(fā)展過程中最為重要的一環(huán)。
　　在當(dāng)今這個(gè)網(wǎng)絡(luò)異常發(fā)達(dá)的大數(shù)據(jù)時(shí)代，網(wǎng)上招聘已經(jīng)成了一種流行趨勢。但是網(wǎng)絡(luò)招聘也存在了許許多多的問題和不足，比如：
（1）招聘信息真實(shí)度難以分辨
　　當(dāng)今網(wǎng)絡(luò)招聘面臨最大的挑戰(zhàn)就是招聘信息的真實(shí)度問題。當(dāng)求職者在招聘網(wǎng)站輸入身份信息的時(shí)候，有可能導(dǎo)致招聘信息的泄漏和身份信息的曝光，這就是網(wǎng)絡(luò)招聘發(fā)展的過程中所遇到的最大難題。有某些個(gè)別的招聘網(wǎng)站由于自身沒有足夠用來展示的數(shù)據(jù)信息，就剽竊其他的招聘網(wǎng)頁的數(shù)據(jù)信息來擴(kuò)充門面。如果這樣的活，就會出現(xiàn)一個(gè)公司的招聘已經(jīng)完成了，但那些已經(jīng)失去作用的招聘信息仍然出現(xiàn)在公司沒有發(fā)出過信息的網(wǎng)站之上，就變成誤導(dǎo)求職者的虛假信息這種情況，耽誤了應(yīng)聘者的時(shí)間及精力。
（2）網(wǎng)絡(luò)招聘服務(wù)并不完善
　　如今的網(wǎng)絡(luò)招聘大多都是照葫蘆畫瓢，原樣照搬下來招聘信息就草草了事。網(wǎng)絡(luò)招聘不僅要對人力資源這一課題有著深刻的認(rèn)識，還必須需要具備過硬的技術(shù)底蘊(yùn)，而且需要強(qiáng)大的語言組織和策劃的能力，這樣才能吸引更多的投遞簡歷。
（3）招聘信息的處理難度大
　　在互聯(lián)網(wǎng)技術(shù)不斷地進(jìn)步，各種各樣網(wǎng)絡(luò)招聘信息也不斷地出現(xiàn)并且讓人目不暇接。網(wǎng)絡(luò)技術(shù)的進(jìn)步雖然能加快信息的推廣與普及，但是也會招致應(yīng)聘者對應(yīng)聘崗位的過度競爭，使得招聘公司收到繁多的簡歷。這樣的話就會意味著招聘公司在網(wǎng)絡(luò)招聘方面的投入會不斷增加，從而增加招聘公司的負(fù)擔(dān)。
　　因此，一份能夠自動爬取網(wǎng)上招聘信息并進(jìn)行整理存儲的爬蟲就派上了用場。本篇論文采用Python語言編寫的一個(gè)采集數(shù)據(jù)和進(jìn)行可視化處理系統(tǒng)。本設(shè)計(jì)使用Scrapy框架來采集需要用到的網(wǎng)絡(luò)招聘信息，然后把爬取下來的數(shù)據(jù)存入MySQL數(shù)據(jù)庫之中，在對這些數(shù)據(jù)進(jìn)行數(shù)據(jù)可視化處理。就能夠通過這些結(jié)果來認(rèn)識理解相關(guān)的招聘因素的關(guān)系，讓畢業(yè)生們更加直觀的，清晰地了解相關(guān)工作的薪資待遇及工作前景。更加方便的選取適合自己的工作職位。招聘網(wǎng)站數(shù)據(jù)可視化分析平臺從各種的招聘信息中提取出有價(jià)值的數(shù)據(jù)，并以數(shù)字圖像的形式進(jìn)行直觀化展示。把用戶從雜亂無章的數(shù)據(jù)里面解放出來。通過該設(shè)計(jì)能夠更高效地理解和分析據(jù)聘數(shù)據(jù)信息，快速尋找對于自
身有用的信息。使得招聘信息能夠更加有效地傳述。有利于求職者明確自己的學(xué)習(xí)方向，掌握需要的工作技能。

二、數(shù)據(jù)采集

2.1 采集需求

??　本篇論文采集的目的網(wǎng)站是智聯(lián)招聘，需要從其中獲取一些職位各種相關(guān)的信息，用來為完成后面的數(shù)據(jù)可視化部分做好準(zhǔn)備，需要獲取的信息大概包括以下幾個(gè)方面：各個(gè)職位特有的ID，職位所在的城市，職位的薪資水平，職位類型，職位要求學(xué)歷，職位的標(biāo)簽，職位要求的工作經(jīng)驗(yàn)等等。

2.2 網(wǎng)頁分析

??　首先打開電腦瀏覽器，在搜索框中輸入智聯(lián)招聘，點(diǎn)擊并且進(jìn)入智聯(lián)網(wǎng)站主頁。然后在搜索欄中輸入通信工程師，并進(jìn)行搜索。搜索結(jié)果如圖3.1所示
　　 python爬蟲智聯(lián)招聘,python,大數(shù)據(jù),python,爬蟲,算法

圖 3.1搜索結(jié)果圖
　　本篇設(shè)計(jì)所需要的網(wǎng)絡(luò)招聘代碼數(shù)據(jù)并沒有在這里出現(xiàn)，其實(shí)發(fā)現(xiàn)數(shù)據(jù)數(shù)據(jù)應(yīng)該是從別地方的請求傳遞而來的。在這里需要找到瀏覽器設(shè)置，點(diǎn)擊進(jìn)入開發(fā)者模式，點(diǎn)擊Network。下一步點(diǎn)擊XHR–>點(diǎn)擊的requests–>在response中可以看到需要的數(shù)據(jù)就在這里如圖3.2。
　　 python爬蟲智聯(lián)招聘,python,大數(shù)據(jù),python,爬蟲,算法

圖 3.2源代碼效果圖
從圖3.2發(fā)現(xiàn)這些服務(wù)器返回?cái)?shù)據(jù)格式是是json類型，這樣就很方便解析了。

2.3 數(shù)據(jù)爬取

??因?yàn)榕老x抓取的數(shù)據(jù)量工作較大,所以為了更加高效地進(jìn)行數(shù)據(jù)分析,采用Excel的方式工作效率開始明顯降低。
??因此,采用數(shù)據(jù)庫技術(shù)進(jìn)行存儲是必要的[2]。從這里開始，正式開始構(gòu)建程序的大體框架，首先需要用代碼來模擬虛擬用戶向智聯(lián)網(wǎng)站的服務(wù)器發(fā)送請求查詢數(shù)據(jù)。正因?yàn)槿绱?，這里需要構(gòu)造相關(guān)參數(shù)的程序請求頭請求智聯(lián)官網(wǎng)網(wǎng)頁，相關(guān)的代碼如3.3圖所示：
python爬蟲智聯(lián)招聘,python,大數(shù)據(jù),python,爬蟲,算法

三、數(shù)據(jù)可視化以及研究結(jié)果

3.1 可視化的實(shí)現(xiàn)

??在獲取到所以需要的數(shù)據(jù)之后，剩下的最后一步就是可視化的實(shí)現(xiàn)，由于從數(shù)據(jù)庫獲取到的數(shù)據(jù)類型是dict類型，我們先用a來等于字典全部的鍵，用b來等于字典全部的值。做可視化采用Python很方便，使用plt.bar，這樣一來就能得到一個(gè)直方圖，再通過show將圖展示出來，并使用savefig將圖存儲成圖片就完成了。

3.2 研究結(jié)果

??通過本篇論文設(shè)計(jì)程序的運(yùn)行，最終得到了結(jié)果圖6.1，圖6.2，圖6.3，圖6.4所示：
python爬蟲智聯(lián)招聘,python,大數(shù)據(jù),python,爬蟲,算法

圖 6.1不同崗位的平均薪資
　??　從上圖可以清楚地看到不同職位之間的薪資水平以及差距，這就大大減少了求職者時(shí)間與精力的浪費(fèi)，為求職者職位挑選提供了可靠地參考。
python爬蟲智聯(lián)招聘,python,大數(shù)據(jù),python,爬蟲,算法

圖 6.2工作平均薪資的分布水平
　　通過圖6.2可見，大多數(shù)職位的薪資大都集中在1000-5000之間，隨著薪水增長，所對應(yīng)的人數(shù)更加稀少。
　　 python爬蟲智聯(lián)招聘,python,大數(shù)據(jù),python,爬蟲,算法

圖 6.3薪資與工作經(jīng)驗(yàn)的關(guān)系
　　由圖6.3所示，招聘人數(shù)最多的往往要求工作經(jīng)歷在1到3年之間，而要求10年的招聘崗位最少，這說明，隨著互聯(lián)網(wǎng)技術(shù)的發(fā)展，各種崗位的更新?lián)Q代也在不斷加速，企業(yè)最需要的都是有經(jīng)驗(yàn)的新生代勞動力。
python爬蟲智聯(lián)招聘,python,大數(shù)據(jù),python,爬蟲,算法

圖 6.4 招聘企業(yè)薪水水平
通過上圖6.4可以清晰地看出，社會團(tuán)體提供的薪資水平最低，民營企業(yè)提供的薪資水平最高。

四、總結(jié)

??本篇論文主要是利用Python的網(wǎng)絡(luò)爬蟲，通過相應(yīng)的程序代碼，從智聯(lián)網(wǎng)站上爬取我們所需要的招聘數(shù)據(jù)，并將這些爬取下來的json類型的網(wǎng)頁數(shù)據(jù)存儲進(jìn)我們建立的關(guān)系型數(shù)據(jù)庫（Relational database）MySQL之中，最后通過字段確定，數(shù)據(jù)獲取，可視化實(shí)現(xiàn)來展示出我們所需要的結(jié)果圖，例如平均工資與職位之間的關(guān)系，工作經(jīng)驗(yàn)對于工作薪資待遇的影響等等。
　　??在這次畢業(yè)設(shè)計(jì)中，因?yàn)槲覍ython這門語言一知半解，加上爬取過程相對來說比較復(fù)雜，這導(dǎo)致了我在爬取智聯(lián)招聘網(wǎng)站時(shí)花費(fèi)了大量的實(shí)踐與精力。雖然說最后勉勉強(qiáng)強(qiáng)完成了一部分指導(dǎo)老師交代的課題要求，但是還存在著許許多多的缺陷與不足，由于之前從未涉及過Python這門語言和MySQL數(shù)據(jù)庫，再加上我的編程功底確實(shí)不盡如人意，這讓我在Python的過程中頻頻出錯(cuò)，漏洞百出。在編程過程中，因?yàn)閷ython語言的不熟悉，我都是一邊從網(wǎng)上搜集資料，一邊查閱相關(guān)Python的書籍進(jìn)行代碼的編寫。這樣就會有好多Python底層代碼特別容易產(chǎn)生邏輯性
錯(cuò)誤，面對這些我充分認(rèn)識到了自己在編程方面還存在著很多不足，這份程序也有待改進(jìn)。希望在未來的日子里，我也可以通過不斷的學(xué)習(xí)強(qiáng)化自身能力，不辜負(fù)學(xué)校老師的教育和指導(dǎo)。

六、目錄

1 緒論2
1.1 研究背景及意義2
1.2 研究現(xiàn)狀3
1.2.1 國外研究現(xiàn)狀3
1.2.2 國內(nèi)研究現(xiàn)狀3
1.3 論文的結(jié)構(gòu)安排4
2 設(shè)計(jì)原理4
2.1 應(yīng)用軟件介紹4
2.1.1 Python介紹4
2.1.2 爬取框架選擇5
2.2 設(shè)計(jì)思路6
3 數(shù)據(jù)采集6
3.1 采集需求6
3.2 網(wǎng)頁分析7
3.3 數(shù)據(jù)爬取8
3.4 進(jìn)行網(wǎng)站數(shù)據(jù)的分析9
4 MySQL數(shù)據(jù)庫9
4.1 數(shù)據(jù)庫選擇9
4.2 將數(shù)據(jù)存儲進(jìn)數(shù)據(jù)庫10
5 數(shù)據(jù)的分析處理11
5.1 字段確定11
5.2 招聘數(shù)據(jù)的獲取12
6 數(shù)據(jù)可視化以及研究結(jié)果13
6.1 可視化的實(shí)現(xiàn)13
6.2 研究結(jié)果13
7 結(jié)論及展望16
參考文獻(xiàn)：17
致謝18文章來源地址http://www.zghlxwxcb.cn/news/detail-773831.html

到了這里，關(guān)于基于Python的網(wǎng)絡(luò)爬蟲及數(shù)據(jù)處理---智聯(lián)招聘人才招聘特征分析與挖掘的算法實(shí)現(xiàn)的文章就介紹完了。如果您還想了解更多內(nèi)容，請?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章，希望大家以后多多支持TOY模板網(wǎng)！

本文來自互聯(lián)網(wǎng)用戶投稿，該文觀點(diǎn)僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務(wù)，不擁有所有權(quán)，不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載，請注明出處：如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符，請點(diǎn)擊違法舉報(bào)進(jìn)行投訴反饋，一經(jīng)查實(shí)，立即刪除！

分享到：

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

【數(shù)據(jù)集處理】基于Python處理EAR5數(shù)據(jù)
ERA5是ECMWF（歐洲中期天氣預(yù)報(bào)中心）對1950年1月至今全球氣候的第五代大氣再分析數(shù)據(jù)集。包含了四個(gè) 基本變量(日平均溫度、降水、比濕度和距離地表2米的氣壓) ，這些變量在每日時(shí)間尺度上覆蓋全球，從而可以對不同地區(qū)和時(shí)間段進(jìn)行全面和統(tǒng)一的分析時(shí)間分辨率：194
2024年02月05日
瀏覽(26)
爬蟲-華為云空間備忘錄導(dǎo)出到docx-selenium控制瀏覽器行為-python數(shù)據(jù)處理
老的榮耀手機(jī)屬于華為云系統(tǒng)，家里人換了新榮耀手機(jī)屬于榮耀云系統(tǒng)無法通過云空間將備忘錄轉(zhuǎn)移到新手機(jī)，不想讓他們一個(gè)一個(gè)搞，于是整了一晚上想辦法爬取下來。從網(wǎng)頁抓取下來，然后存到docx文檔中（包括文字和圖片，別的形式的內(nèi)容請舉一反三）多行圖片多行文
2024年02月19日
瀏覽(22)
Python地理數(shù)據(jù)處理 22：基于arcpy批量操作（四）
代碼描述：遍歷a文件夾下的所有tif影像，并使用每個(gè)a文件夾中的tif影像對b文件夾下的所有tif影像進(jìn)行裁剪。裁剪后的柵格將以兩個(gè)tif文件進(jìn)行組合命名，并保存到另一個(gè)文件夾中。獲取柵格數(shù)據(jù)的平均值，并輸出程序運(yùn)行進(jìn)度：程序運(yùn)行進(jìn)度：某文件夾中包含多個(gè)子文件
2024年02月04日
瀏覽(22)
基于python的心臟病個(gè)人指數(shù)數(shù)據(jù)集數(shù)據(jù)處理——結(jié)課論文
前言: 此論文是小趙的python數(shù)據(jù)分析與應(yīng)用的結(jié)課作業(yè) ，未上傳論文涉及的所有數(shù)據(jù)集，本論文所涉及的數(shù)據(jù)預(yù)處理，數(shù)據(jù)分析和可視化僅以這些數(shù)據(jù)集為準(zhǔn)，所有處理方法，結(jié)果以及結(jié)論僅個(gè)人觀點(diǎn)。心臟病個(gè)人指數(shù)數(shù)據(jù)集數(shù)據(jù)處理摘要： ??? 本論文包含了對心臟病個(gè)
2024年02月04日
瀏覽(19)
Python地理數(shù)據(jù)處理二十一：基于arcpy批量操作（三）
實(shí)現(xiàn)將給定的 .shp 文件中的所有省份作為裁剪范圍，對給定的 .tif 文件進(jìn)行裁剪，輸出所有省份的單獨(dú) .tif 文件：實(shí)現(xiàn)對文件名前14個(gè)字符一樣的tif圖像進(jìn)行柵格運(yùn)算求和：如：XXXX_XXX_2003.M01_Mean、XXXX_XXX_2003.M02_Mean、XXXX_XXX_2003.M03_Mean；XXXX_XXX_2004.M01_Mean、XXXX_XXX_2004.M02_Mean、
2024年02月01日
瀏覽(22)
【MATLAB數(shù)據(jù)處理實(shí)用案例詳解（22）】——基于BP神經(jīng)網(wǎng)絡(luò)的PID參數(shù)整定
基于BP神經(jīng)網(wǎng)絡(luò)的PID控制的系統(tǒng)結(jié)構(gòu)如下圖所示：考慮仿真對象，輸入為r(k)=1.0，輸入層為4，隱藏層為5，輸出層為3，仿真輸出滿足 a ( k ) = 1.2 ( 1 ? 0.8 e x p ( ? 0.1 k ) ) , y ( k ) = a ( k ) y ? 1 1 + ( y ? 1 ) 2 + u ? 1 a(k)=1.2(1-0.8exp(-0.1k)),y(k)=a(k) frac{y-1}{1+(y-1)^2}+u-1 a ( k ) = 1.2 ( 1 ?
2024年02月07日
瀏覽(32)
基于Python的微信聊天記錄分析——數(shù)據(jù)處理與分析
本篇為《基于Python的微信聊天記錄分析》系列的第二篇，主要講解獲取到聊天記錄數(shù)據(jù)之后，在Python環(huán)境下對其進(jìn)行數(shù)據(jù)處理、分析和可視化，涉及庫的安裝、相關(guān)操作的Python代碼等內(nèi)容。希望和大家多多交流，共同進(jìn)步！數(shù)據(jù)分析的基礎(chǔ)是“數(shù)據(jù)”，俗話說基礎(chǔ)不牢，地動
2024年02月19日
瀏覽(89)
數(shù)據(jù)分享|基于Python、Hadoop零售交易數(shù)據(jù)的Spark數(shù)據(jù)處理與Echarts可視化分析
案例數(shù)據(jù)集是在線零售業(yè)務(wù)的交易數(shù)據(jù)，采用Python為編程語言，采用Hadoop存儲數(shù)據(jù)，采用Spark對數(shù)據(jù)進(jìn)行處理分析，并使用Echarts做數(shù)據(jù)可視化。由于案例公司商業(yè)模式類似新零售，或者說有向此方向發(fā)展利好的趨勢，所以本次基于利于公司經(jīng)營與發(fā)展的方向進(jìn)行數(shù)據(jù)分析。
2024年02月11日
瀏覽(37)
基于Python的海量豆瓣電影、數(shù)據(jù)獲取、數(shù)據(jù)預(yù)處理、數(shù)據(jù)分析、可視化、大屏設(shè)計(jì)項(xiàng)目（含數(shù)據(jù)庫）
項(xiàng)目介紹有需要本項(xiàng)目的代碼或文檔以及全部資源，或者部署調(diào)試可以私信博主?。。。。。。。。?！本文基于Python的網(wǎng)絡(luò)爬蟲手段對豆瓣電影網(wǎng)站進(jìn)行數(shù)據(jù)的抓取，通過合理的分析豆瓣網(wǎng)站的網(wǎng)頁結(jié)構(gòu)，并設(shè)計(jì)出規(guī)則來獲取電影數(shù)據(jù)的JSON數(shù)據(jù)包，采用正態(tài)分布的延時(shí)措施
2024年02月12日
瀏覽(50)
python 數(shù)據(jù)、曲線平滑處理——基于Numpy.convolve實(shí)現(xiàn)滑動平均濾波——詳解
滑動平均濾波法（又稱：遞推平均濾波法），它把連續(xù)取N個(gè)采樣值看成一個(gè)隊(duì)列，隊(duì)列的長度固定為N ，每次采樣到一個(gè)新數(shù)據(jù)放入隊(duì)尾，并扔掉原來隊(duì)首的一次數(shù)據(jù)(先進(jìn)先出原則) 。把隊(duì)列中的N個(gè)數(shù)據(jù)進(jìn)行算術(shù)平均運(yùn)算，就可獲得新的濾波結(jié)果。 N值的選?。毫髁?，N=
2024年02月09日
瀏覽(38)

<address id="8gpss"><thead id="8gpss"><sup id="8gpss"></sup></thead></address>