安全滲透測(cè)試中的一款免費(fèi)開(kāi)源的超級(jí)關(guān)鍵詞URL采集工具。
####################
免責(zé)聲明:工具本身并無(wú)好壞,希望大家以遵守《網(wǎng)絡(luò)安全法》相關(guān)法律為前提來(lái)使用該工具,支持研究學(xué)習(xí),切勿用于非法犯罪活動(dòng),對(duì)于惡意使用該工具造成的損失,和本人及開(kāi)發(fā)者無(wú)關(guān)。
####################
superl-url 關(guān)鍵詞URL采集:
一款基于Python的開(kāi)源免費(fèi)關(guān)鍵詞URL采集工具。
根據(jù)關(guān)鍵詞,對(duì)搜索引擎內(nèi)容檢索結(jié)果的網(wǎng)址內(nèi)容進(jìn)行采集的一款輕量級(jí)軟程序。
程序主要運(yùn)用于安全滲透測(cè)試項(xiàng)目,以及批量評(píng)估各類(lèi)CMS系統(tǒng)0DAY的影響程度,同時(shí)也是批量采集自己獲取感興趣的網(wǎng)站的一個(gè)小程序~~
可自動(dòng)從搜索引擎采集相關(guān)網(wǎng)站的真實(shí)地址與標(biāo)題等信息,可保存為文件,自動(dòng)去除重復(fù)URL。同時(shí),也可以自定義忽略多條域名。
程序特色
支持同時(shí)采集多個(gè)搜索引擎(已內(nèi)置了百度,搜狗,360),結(jié)構(gòu)模塊化,很方便進(jìn)行擴(kuò)展,可以無(wú)限添加。
獲取到的是搜索引擎的搜索結(jié)果的真實(shí)URL地址
跨平臺(tái),采用Python開(kāi)發(fā),所有代碼完整開(kāi)源.并且無(wú)捆綁后門(mén)風(fēng)險(xiǎn),更新方便。網(wǎng)上大部分URL采集軟件為WINDOWS下的可執(zhí)行文件,并且很多都在搜索引擎更新后無(wú)法正常使用。
強(qiáng)大的過(guò)濾功能。可過(guò)濾多種頂級(jí)域名,可過(guò)濾指定標(biāo)題中包含某關(guān)鍵子的URL,比如搜索結(jié)果中過(guò)濾屬于youku.com的子域名URL。支持TXT配置過(guò)濾。
可自動(dòng)去除重復(fù)URL
可靈活的通過(guò)配置文件自定義要保存的結(jié)果格式。比如只輸出帶參數(shù)的原始真實(shí)URL,或者只輸出域名,或者同時(shí)輸出標(biāo)題,搜索引擎名稱(chēng)。
可靈活的開(kāi)啟與關(guān)閉參與采集的搜索引擎,比如只想使用百度,就把其他搜索引擎參數(shù)設(shè)置為False即可。
同時(shí)兼容python3和python2版本運(yùn)行!良心開(kāi)源小產(chǎn)品啊~~~
可分別自定義不同搜索引擎每頁(yè)顯示數(shù)量(如果搜索引擎自身支持的話)
支持多進(jìn)程同時(shí)采集,每個(gè)搜索引擎一個(gè)進(jìn)程
可自定義每頁(yè)采集時(shí)間間隔,防止被屏蔽
實(shí)時(shí)顯示采集到的網(wǎng)頁(yè)的【真實(shí)URL】以及【標(biāo)題】。前面的【ID】對(duì)應(yīng)的是當(dāng)前頁(yè)搜索引擎結(jié)果的第X條數(shù)據(jù)。
保存類(lèi)型可自定義,目前支持保存為本地txt,以及寫(xiě)入遠(yuǎn)程MYSQL數(shù)據(jù)庫(kù)!
superl-url安裝與使用
git clone https://github.com/super-l/superl-url.git
安裝依賴(lài)
python3:pip install ConfigParserpip install tldextract
Python2:pip install tldextractpip install -i https://pypi.tuna.tsinghua.edu.cn/simple configparser
如果提示模塊不存在,則根據(jù)提示進(jìn)行安裝!
使用說(shuō)明
如果要采集關(guān)鍵詞為“hacker”的相關(guān)網(wǎng)站,采集搜索結(jié)果的前3頁(yè),則輸入如下:
please input keyword:hacker
Search Number of pages:3
配置文件說(shuō)明 config.cfg :
節(jié)點(diǎn) 參數(shù) 示例值 說(shuō)明
global save_type mysql 保存類(lèi)型 可選擇file或者mysql 如果是file則保存為本地txt
global sleep_time 1 每次搜索處理完一頁(yè)后的等待時(shí)間,防止太頻繁被搜索引擎屏蔽
url url_type realurl 保存文件txt里面顯示的url類(lèi)型。realurl=真實(shí)網(wǎng)站地址 baseurl=原始搜索引擎地址 urlparam=帶參數(shù)的真實(shí)網(wǎng)站地址
filter filter_status True 是否開(kāi)啟過(guò)濾器,如果開(kāi)啟,則過(guò)濾域名和標(biāo)題都不生效
filter filter_domain True 是否過(guò)濾域名
filter filter_title True 是否過(guò)濾標(biāo)題
log write_title True 是否顯示標(biāo)題
log write_name True 是否顯示搜索引擎名稱(chēng)
engine baidu True 百度搜索引擎模塊是否開(kāi)啟
engine sougou True 搜狗模塊是否開(kāi)啟
engine so False 搜搜模塊是否開(kāi)啟 (搜搜現(xiàn)在抓取不到了)
pagesize baidu_pagesize 50 每頁(yè)條數(shù)
pagesize sougou_pagesize 50 每頁(yè)條數(shù)
pagesize so_pagesize 10 每頁(yè)條數(shù)
mysql host 127.0.0.1 如果保存類(lèi)型為Mysql,則此節(jié)點(diǎn)必須配置正確
mysql port 3306 端口
mysql user root 用戶(hù)名
mysql password root 密碼
mysql database superldb 數(shù)據(jù)庫(kù)名稱(chēng)
mysql table search_data 表名稱(chēng)
file save_pathdir result 如果保存類(lèi)型為file,則這里設(shè)置的是保存的路徑,當(dāng)前為程序根目錄的result文件夾
plugin pr True 預(yù)留的插件功能,暫時(shí)不支持文章來(lái)源:http://www.zghlxwxcb.cn/news/detail-435561.html
數(shù)據(jù)庫(kù)創(chuàng)建表sql語(yǔ)句:文章來(lái)源地址http://www.zghlxwxcb.cn/news/detail-435561.html
CREATE TABLE `search_data` (
`id` int(11) unsigned NOT NULL AUTO_INCREMENT,
`engine` varchar(20) NOT NULL DEFAULT '',
`keyword` varchar(100) NOT NULL DEFAULT '',
`baseurl` varchar(255) NOT NULL DEFAULT '',
`realurl` varchar(255) NOT NULL DEFAULT '',
`urlparam` varchar(255) NOT NULL DEFAULT '',
`webtitle` varchar(255) NOT NULL DEFAULT '',
`create_time` int(10) NOT NULL,
PRIMARY KEY (`id`)
) ENGINE=MyISAM AUTO_INCREMENT=395 DEFAULT CHARSET=utf8;
到了這里,關(guān)于安全滲透測(cè)試中的一款免費(fèi)開(kāi)源的超級(jí)關(guān)鍵詞URL采集工具的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!