国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

【GUI軟件】抖音搜索結(jié)果批量采集,支持多個(gè)關(guān)鍵詞、排序方式、發(fā)布時(shí)間篩選等!

這篇具有很好參考價(jià)值的文章主要介紹了【GUI軟件】抖音搜索結(jié)果批量采集,支持多個(gè)關(guān)鍵詞、排序方式、發(fā)布時(shí)間篩選等!。希望對(duì)大家有所幫助。如果存在錯(cuò)誤或未考慮完全的地方,請(qǐng)大家不吝賜教,您也可以點(diǎn)擊"舉報(bào)違法"按鈕提交疑問(wèn)。

目錄
  • 一、背景介紹
    • 1.1 爬取目標(biāo)
    • 1.2 演示視頻
    • 1.3 軟件說(shuō)明
  • 二、代碼講解
    • 2.1 爬蟲采集模塊
    • 2.2 軟件界面模塊
    • 2.3 日志模塊
  • 三、獲取源碼及軟件

一、背景介紹

1.1 爬取目標(biāo)

您好!我是@馬哥python說(shuō),一名10年程序猿。

我用python開發(fā)了一個(gè)爬蟲采集軟件,可自動(dòng)按關(guān)鍵詞抓取抖音視頻數(shù)據(jù)。

為什么有了源碼還開發(fā)界面軟件呢?方便不懂編程代碼的小白用戶使用,無(wú)需安裝python,無(wú)需改代碼,雙擊打開即用!

軟件界面截圖:
【GUI軟件】抖音搜索結(jié)果批量采集,支持多個(gè)關(guān)鍵詞、排序方式、發(fā)布時(shí)間篩選等!

爬取結(jié)果截圖:
結(jié)果截圖1:
【GUI軟件】抖音搜索結(jié)果批量采集,支持多個(gè)關(guān)鍵詞、排序方式、發(fā)布時(shí)間篩選等!

結(jié)果截圖2:
【GUI軟件】抖音搜索結(jié)果批量采集,支持多個(gè)關(guān)鍵詞、排序方式、發(fā)布時(shí)間篩選等!

結(jié)果截圖3:
【GUI軟件】抖音搜索結(jié)果批量采集,支持多個(gè)關(guān)鍵詞、排序方式、發(fā)布時(shí)間篩選等!

以上。

1.2 演示視頻

軟件使用演示:
【軟件演示】抖音搜索采集工具,支持多個(gè)關(guān)鍵詞、排序方式、發(fā)布時(shí)間等

1.3 軟件說(shuō)明

幾點(diǎn)重要說(shuō)明:

  1. Windows用戶可直接雙擊打開使用,無(wú)需Python運(yùn)行環(huán)境,非常方便!
  2. 需要填入個(gè)人cookie和目標(biāo)視頻鏈接
  3. 支持篩選:排序方式(綜合排序/最新發(fā)布/最多點(diǎn)贊)和發(fā)布時(shí)間(不限/一天內(nèi)/一周內(nèi)/半年內(nèi))
  4. 支持同時(shí)爬多個(gè)關(guān)鍵詞
  5. 爬取過(guò)程中,有l(wèi)og文件詳細(xì)記錄運(yùn)行過(guò)程,方便回溯
  6. 爬取完成后,自動(dòng)導(dǎo)出結(jié)果到csv文件
  7. 可爬13個(gè)字段,含:關(guān)鍵詞,頁(yè)碼,視頻標(biāo)題,視頻鏈接,作者昵稱,抖音號(hào),作者鏈接,作者粉絲數(shù),發(fā)布時(shí)間,點(diǎn)贊數(shù),評(píng)論數(shù),收藏?cái)?shù),轉(zhuǎn)發(fā)數(shù)。

以上。

二、代碼講解

2.1 爬蟲采集模塊

首先,定義接口地址作為請(qǐng)求地址:

# 請(qǐng)求地址
url = 'https://www.douyin.com/aweme/v1/web/search/item/'

定義一個(gè)請(qǐng)求頭,用于偽造瀏覽器:

# 請(qǐng)求頭
h1 = {
	"Accept": 'application/json, text/plain, */*',
	"Accept-Encoding": "gzip, deflate",
	"Accept-Language": "zh-CN,zh;q=0.9,en;q=0.8",
	"Cookie": self.cookie_val,
	"Referer": "",
	"Sec-Ch-Ua": 'Not_A Brand";v="8", "Chromium";v="120", "Google Chrome";v="120',
	"Sec-Ch-Ua-Mobile": "?0",
	"Sec-Ch-Ua-Platform": "Windows",
	"Sec-Fetch-Dest": "empty",
	"Sec-Fetch-Mode": "cors",
	"Sec-Fetch-Site": "same-origin",
	"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/120.0.0.0 Safari/537.36"
}

說(shuō)明一下,cookie是個(gè)關(guān)鍵參數(shù)。
cookie的獲取方法,如下:
【GUI軟件】抖音搜索結(jié)果批量采集,支持多個(gè)關(guān)鍵詞、排序方式、發(fā)布時(shí)間篩選等!

這個(gè)值非常重要,軟件界面需要填寫?。?/p>

加上請(qǐng)求參數(shù),告訴程序你的爬取條件是什么:

# 請(qǐng)求參數(shù)
params = {
	"device_platform": "webapp",
	"aid": "6383",
	"channel": "channel_pc_web",
	"search_channel": "aweme_video_web",
	"sort_type": self.trans_sort_type(v_str=self.sort_type),
	"publish_time": self.trans_time_range(v_str=self.time_range),
	"keyword": search_keyword,
	"search_source": "tab_search",
	"query_correct_type": "1",
	"is_filter_search": "1",
	"from_group_id": "",
	"offset": cursor,
	"count": "20",
	"pc_client_type": "1",
	"version_code": "170400",
	"version_name": "17.4.0",
	"cookie_enabled": "true",
	"screen_width": "1536",
	"screen_height": "864",
	"browser_language": "zh-CN",
	"browser_platform": "Win32",
	"browser_name": "Chrome",
	"browser_version": "120.0.0.0",
	"browser_online": "true",
	"engine_name": "Blink",
	"engine_version": "120.0.0.0",
	"os_name": "Windows",
	"os_version": "10",
	"cpu_core_num": "8",
	"device_memory": "8",
	"platform": "PC",
	"downlink": "10",
	"effective_type": "4g",
	"round_trip_time": "50",
	"webid": "7249265465250973217",
	"msToken": "Sx2PzLIz0YGvM_wrIkaUaaeUb1JUutgo3ERiWmwV1w6VC1naW15lFM6N3nanMZRZYfaHLvXrDNzGqkAyvvCpdO3d6u0u_kNmmZZHeMIsDqga2eWnjTzp5g==",
	"X-Bogus": "DFSzswVuketAN9oEt7PfdSlls7YT"
}

下面就是發(fā)送請(qǐng)求和接收數(shù)據(jù):

# 發(fā)送請(qǐng)求
r = requests.get(url, headers=h1, params=params)
print(r.status_code)
# 以json格式接收返回?cái)?shù)據(jù)
json_data = r.json()

定義一些空列表,用于存放解析后字段數(shù)據(jù):

# 定義空列表
title_list = []  # 視頻標(biāo)題
link_list = []  # 視頻鏈接
author_name_list = []  # 作者昵稱
author_id_list = []  # 抖音號(hào)
author_link_list = []  # 作者鏈接
follower_count_list = []  # 作者粉絲數(shù)
create_time_list = []  # 發(fā)布時(shí)間
like_count_list = []  # 點(diǎn)贊數(shù)
comment_count_list = []  # 評(píng)論數(shù)
collect_count_list = []  # 收藏?cái)?shù)
share_count_list = []  # 轉(zhuǎn)發(fā)數(shù)

循環(huán)解析字段數(shù)據(jù),以"視頻標(biāo)題"為例:

for v in video_list:
	# 視頻標(biāo)題
	title = v['aweme_info']['desc']
	self.tk_show('視頻標(biāo)題:' + title)
	title_list.append(title)

其他字段同理,不再贅述。

最后,是把數(shù)據(jù)保存到csv文件:

# 保存數(shù)據(jù)到DF
df = pd.DataFrame(
	{
		'關(guān)鍵詞': search_keyword,
		'頁(yè)碼': page,
		'視頻標(biāo)題': title_list,
		'視頻鏈接': link_list,
		'作者昵稱': author_name_list,
		'抖音號(hào)': author_id_list,
		'作者鏈接': author_link_list,
		'作者粉絲數(shù)': follower_count_list,
		'發(fā)布時(shí)間': create_time_list,
		'點(diǎn)贊數(shù)': like_count_list,
		'評(píng)論數(shù)': comment_count_list,
		'收藏?cái)?shù)': collect_count_list,
		'轉(zhuǎn)發(fā)數(shù)': share_count_list,
	}
)
if os.path.exists(self.result_file):  # 如果文件存在,不再設(shè)置表頭
	header = False
else:  # 否則,設(shè)置csv文件表頭
	header = True
df.to_csv(self.result_file, mode='a+', index=False, header=header, encoding='utf_8_sig')
self.tk_show('保存csv文件成功:' + self.result_file)

完整代碼中,還含有:判斷循環(huán)結(jié)束條件、排序方式(綜合排序/最新發(fā)布/最多點(diǎn)贊)、發(fā)布時(shí)間(不限/一天內(nèi)/一周內(nèi)/半年內(nèi))等關(guān)鍵實(shí)現(xiàn)邏輯。

2.2 軟件界面模塊

主窗口部分:

# 創(chuàng)建主窗口
root = tk.Tk()
root.title('抖音搜索采集軟件v1.1 | 馬哥python說(shuō) |')
# 設(shè)置窗口大小
root.minsize(width=850, height=650)

輸入控件部分:

# 搜索關(guān)鍵詞
tk.Label(root, justify='left', text='搜索關(guān)鍵詞:').place(x=30, y=160)
entry_kw = tk.Text(root, bg='#ffffff', width=60, height=2, )
entry_kw.place(x=125, y=160, anchor='nw')  # 擺放位置

底部版權(quán)部分:

# 版權(quán)信息
copyright = tk.Label(root, text='@馬哥python說(shuō) All rights reserved.', font=('仿宋', 10), fg='grey')
copyright.place(x=290, y=625)

以上。

2.3 日志模塊

好的日志功能,方便軟件運(yùn)行出問(wèn)題后快速定位原因,修復(fù)bug。

核心代碼:

def get_logger(self):
	self.logger = logging.getLogger(__name__)
	# 日志格式
	formatter = '[%(asctime)s-%(filename)s][%(funcName)s-%(lineno)d]--%(message)s'
	# 日志級(jí)別
	self.logger.setLevel(logging.DEBUG)
	# 控制臺(tái)日志
	sh = logging.StreamHandler()
	log_formatter = logging.Formatter(formatter, datefmt='%Y-%m-%d %H:%M:%S')
	# info日志文件名
	info_file_name = time.strftime("%Y-%m-%d") + '.log'
	# 將其保存到特定目錄,ap方法就是尋找項(xiàng)目根目錄,該方法博主前期已經(jīng)寫好。
	case_dir = r'./logs/'
	info_handler = TimedRotatingFileHandler(filename=case_dir + info_file_name,
						when='MIDNIGHT',
						interval=1,
						backupCount=7,
						encoding='utf-8')

日志文件截圖:
【GUI軟件】抖音搜索結(jié)果批量采集,支持多個(gè)關(guān)鍵詞、排序方式、發(fā)布時(shí)間篩選等!

以上。

三、獲取源碼及軟件

完整python源碼及exe軟件,微信公眾號(hào)"老男孩的平凡之路"后臺(tái)回復(fù)"爬抖音搜索軟件"即可獲取。點(diǎn)擊直達(dá)


推薦閱讀:【GUI界面軟件】抖音評(píng)論采集:自動(dòng)采集10000多條,含二級(jí)評(píng)論、展開評(píng)論!文章來(lái)源地址http://www.zghlxwxcb.cn/news/detail-785502.html

到了這里,關(guān)于【GUI軟件】抖音搜索結(jié)果批量采集,支持多個(gè)關(guān)鍵詞、排序方式、發(fā)布時(shí)間篩選等!的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來(lái)自互聯(lián)網(wǎng)用戶投稿,該文觀點(diǎn)僅代表作者本人,不代表本站立場(chǎng)。本站僅提供信息存儲(chǔ)空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載,請(qǐng)注明出處: 如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符,請(qǐng)點(diǎn)擊違法舉報(bào)進(jìn)行投訴反饋,一經(jīng)查實(shí),立即刪除!

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

相關(guān)文章

  • 搜索引擎的個(gè)性化搜索:為何搜索結(jié)果因人而異

    搜索引擎的個(gè)性化搜索:為何搜索結(jié)果因人而異

    ?? 個(gè)人網(wǎng)站:【海擁】【游戲大全】【神級(jí)源碼資源網(wǎng)】 ?? 前端學(xué)習(xí)課程:??【28個(gè)案例趣學(xué)前端】【400個(gè)JS面試題】 ?? 尋找學(xué)習(xí)交流、摸魚劃水的小伙伴,請(qǐng)點(diǎn)擊【摸魚學(xué)習(xí)交流群】 搜索引擎已成為我們獲取信息的重要工具,而當(dāng)我們輸入相同的進(jìn)行搜索時(shí),為

    2024年02月11日
    瀏覽(21)
  • es的搜索結(jié)果處理

    es的搜索結(jié)果處理

    elasticsearch默認(rèn)是根據(jù)相關(guān)度算分(_score)來(lái)排序,但是也支持自定義方式對(duì)搜索結(jié)果排序??梢耘判蜃侄晤愋陀校簁eyword類型、數(shù)值類型、地理坐標(biāo)類型、日期類型等。 1.1.普通字段排序 keyword、數(shù)值、日期類型排序的語(yǔ)法基本一致。 語(yǔ)法 : 排序條件是一個(gè)數(shù)組,也就是可以

    2024年02月01日
    瀏覽(29)
  • Elasticsearch(八)搜索---搜索輔助功能(上)--指定搜索返回字段,結(jié)果計(jì)數(shù)和分頁(yè)

    Elasticsearch(八)搜索---搜索輔助功能(上)--指定搜索返回字段,結(jié)果計(jì)數(shù)和分頁(yè)

    前面我們已經(jīng)將ES的基礎(chǔ)操作(索引,映射,文檔)學(xué)習(xí)過(guò)了,從這一章開始,我們便開始學(xué)習(xí)ES的最大的功能—搜索 ES為用戶提供了豐富的搜索功能:既有基本的搜索功能,又有搜索建議功能;既有常用的普通類型的匹配功能,又有基于地理位置的搜索功能;既提供了分頁(yè)搜

    2024年02月05日
    瀏覽(20)
  • 織夢(mèng)dedecms在搜索結(jié)果頁(yè)按欄目分類顯示搜索數(shù)據(jù)

    搜索結(jié)果示范 1、搜索框代碼里使用name=\\\"q\\\"作為搜索框?qū)傩?,例??2、打開 /include/taglib/arclist.lib.php 找到,大概在188行 $innertext = trim($innertext); 在它下面加入 preg_match(\\\"/~([A-Za-z0-9_]+)~/s\\\", $keyword, $conditions); if(isset($_REQUEST[\\\'q\\\']) $keyword = \\\'~q~\\\') { preg_match(\\\"/~([A-Za-z0-9_]+)~/s\\\", $keyword, $cond

    2024年02月03日
    瀏覽(23)
  • 詳解dedecms搜索頁(yè)面單獨(dú)調(diào)用搜索結(jié)果條數(shù)的實(shí)現(xiàn)方法

    DEDE的搜索結(jié)果數(shù)量都集成在了列表分頁(yè)標(biāo)簽里,并沒有使用單獨(dú)的函數(shù)來(lái)提供這個(gè)結(jié)果數(shù)量,因此對(duì)有單獨(dú)調(diào)用搜索結(jié)果數(shù)量的用戶來(lái)說(shuō),就有使用問(wèn)題,這里提供二次開發(fā)的方法。 非常簡(jiǎn)單只要修改幾個(gè)地方就行了: 第一步,打開/include/arc.searchview.class.php文件,查找代碼

    2024年02月02日
    瀏覽(23)
  • 帝國(guó)CMS搜索結(jié)果顯示數(shù)量的實(shí)現(xiàn)方法

    最近在做帝國(guó)CMS的搜索功能,記錄一下方便大家以后使用,本文主要講解一下修改帝國(guó)CMS搜索結(jié)果每頁(yè)顯示的數(shù)量的兩種方法。 1、方法一:在后臺(tái)搜索模板中直接設(shè)置數(shù)量 在后臺(tái)——系統(tǒng)——系統(tǒng)參數(shù)設(shè)置——搜索設(shè)置——頁(yè)面設(shè)置,如下圖: 2、方法二:直接更改搜索系

    2024年02月03日
    瀏覽(19)
  • 提升搜索效率-----使用chatGPT插件讓搜索結(jié)果直接展示在谷歌界面右側(cè)

    提升搜索效率-----使用chatGPT插件讓搜索結(jié)果直接展示在谷歌界面右側(cè)

    今天分享一個(gè)chatGPT的進(jìn)階玩法,使用谷歌瀏覽器插件的形式,將chatGPT植入到瀏覽器的搜索結(jié)果內(nèi)。 而chatGPT會(huì)將你的搜索問(wèn)題的結(jié)果,同步展示在谷歌搜索界面的右側(cè)。 但還是要注意科學(xué)上網(wǎng)??!但畢竟谷歌也需要科學(xué)才能擠進(jìn)去 以下為插件網(wǎng)址(火狐需要自己測(cè)試測(cè)試)

    2024年02月08日
    瀏覽(49)
  • 微服務(wù)分布式搜索引擎 ElasticSearch 搜索結(jié)果處理 排序、分頁(yè)與高亮

    微服務(wù)分布式搜索引擎 ElasticSearch 搜索結(jié)果處理 排序、分頁(yè)與高亮

    本文參考黑馬 分布式Elastic search Elasticsearch是一款非常強(qiáng)大的開源搜索引擎,具備非常多強(qiáng)大功能,可以幫助我們從海量數(shù)據(jù)中快速找到需要的內(nèi)容 搜索結(jié)果處理 搜索的結(jié)果可以按照用戶指定的方式去處理或展示。 elasticsearch默認(rèn)是根據(jù)相關(guān)度算分(_score)來(lái)排序,但是也支

    2024年02月02日
    瀏覽(44)
  • Edge瀏覽器搜索欄固定為360搜索引擎 || 瀏覽器地址欄搜索,結(jié)果都是360搜索引擎

    Edge瀏覽器搜索欄固定為360搜索引擎 || 瀏覽器地址欄搜索,結(jié)果都是360搜索引擎

    搜索引擎的URL被篡改成了360搜索 ,很惡心。 打開 設(shè)置 = 隱私、搜索和服務(wù) = 地址欄和搜索 (最下面) 可以看到可以選擇 必應(yīng) 或者 Google 再進(jìn)入 管理搜索引擎 可以看到必應(yīng)的URL已經(jīng)被改成了 http://lx.pub/s?a=3b=%s ,正常應(yīng)該是 https://www.bing.com/search?q=%s ,%s代表你搜索的內(nèi)容。

    2024年02月10日
    瀏覽(26)
  • Elasticsearch --- DSL、RestClient查詢文檔、搜索結(jié)果處理

    Elasticsearch --- DSL、RestClient查詢文檔、搜索結(jié)果處理

    elasticsearch的查詢依然是基于JSON風(fēng)格的DSL來(lái)實(shí)現(xiàn)的。 ? Elasticsearch提供了基于JSON的DSL(Domain Specific Language)來(lái)定義查詢。常見的查詢類型包括: 查詢所有 :查詢出所有數(shù)據(jù),一般測(cè)試用。例如:match_all 全文檢索(full text)查詢 :利用分詞器對(duì)用戶輸入內(nèi)容分詞,然后去倒排

    2024年02月05日
    瀏覽(27)

覺得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請(qǐng)作者喝杯咖啡吧~博客贊助

支付寶掃一掃領(lǐng)取紅包,優(yōu)惠每天領(lǐng)

二維碼1

領(lǐng)取紅包

二維碼2

領(lǐng)紅包