亚洲最大看欧美片,亚洲图揄拍自拍另类图片,欧美精品v国产精品v呦,日本在线精品视频免费

  • 站長(zhǎng)資訊網(wǎng)
    最全最豐富的資訊網(wǎng)站

    淺析怎么使用PHP做異步爬取數(shù)據(jù)

    說(shuō)到爬蟲(chóng),很多人就會(huì)想到python爬蟲(chóng),因?yàn)樗_實(shí)有很大的優(yōu)點(diǎn)。但其實(shí)PHP也是可以用來(lái)做異步爬取數(shù)據(jù)的,下面就來(lái)給大家介紹一下使用PHP做異步爬取數(shù)據(jù)的方法。

    淺析怎么使用PHP做異步爬取數(shù)據(jù)

    什么是網(wǎng)絡(luò)爬蟲(chóng)?

    網(wǎng)絡(luò)爬蟲(chóng)是一個(gè)自動(dòng)提取網(wǎng)頁(yè)的程序,它為搜索引擎從萬(wàn)維網(wǎng)上下載網(wǎng)頁(yè),是搜索引擎的重要組成。傳統(tǒng)爬蟲(chóng)從一個(gè)或若干初始網(wǎng)頁(yè)的URL開(kāi)始,獲得初始網(wǎng)頁(yè)上的URL,在抓取網(wǎng)頁(yè)的過(guò)程中,不斷從當(dāng)前頁(yè)面上抽取新的URL放入隊(duì)列,直到滿足系統(tǒng)的一定停止條件。

    爬蟲(chóng)有什么用?

    • 做為通用搜索引擎網(wǎng)頁(yè)收集器。(google,baidu)

    • 做垂直搜索引擎.

    • 科學(xué)研究:在線人類行為,在線社群演化,人類動(dòng)力學(xué)研究,計(jì)量社會(huì)學(xué),復(fù)雜網(wǎng)絡(luò),數(shù)據(jù)挖掘,等領(lǐng)域的實(shí)證研究都需要大量數(shù)據(jù),網(wǎng)絡(luò)爬蟲(chóng)是收集相關(guān)數(shù)據(jù)的利器。

    • 偷窺,hacking,發(fā)垃圾郵件……

    QueryList 簡(jiǎn)介與特性

    QueryList是一套簡(jiǎn)潔、優(yōu)雅、可擴(kuò)展的PHP采集工具(爬蟲(chóng)),基于phpQuery。

    特性:

    • 擁有與jQuery完全相同的CSS3 DOM選擇器

    • 擁有與jQuery完全相同的DOM操作API

    • 擁有通用的列表采集方案

    • 擁有強(qiáng)大的HTTP請(qǐng)求套件,輕松實(shí)現(xiàn)如:模擬登陸、偽造瀏覽器、HTTP代理等意復(fù)雜的網(wǎng)絡(luò)請(qǐng)求

    • 擁有亂碼解決方案

    • 擁有強(qiáng)大的內(nèi)容過(guò)濾功能,可使用jQuey選擇器來(lái)過(guò)濾內(nèi)容

    • 擁有高度的模塊化設(shè)計(jì),擴(kuò)展性強(qiáng)

    • 擁有富有表現(xiàn)力的API

    • 擁有高質(zhì)量文檔

    • 擁有豐富的插件

    • 擁有專業(yè)的問(wèn)答社區(qū)和交流群

    通過(guò)插件可以輕松實(shí)現(xiàn)諸如:

    • 多線程采集

    • 圖片本地化

    • 模擬瀏覽器行為,如:提交Form表單

    • 網(wǎng)絡(luò)爬蟲(chóng)

    環(huán)境要求

    PHP >= 7.0

    如果你的PHP版本還停留在PHP5,或者不會(huì)使用Composer,你可以選擇使用QueryList3,QueryList3支持php5.3以及手動(dòng)安裝。 QueryList3 文檔:http://v3.querylist.cc

    安裝

    通過(guò)Composer安裝:

    composer require jaeger/querylist
    登錄后復(fù)制

    使用

    元素操作

    采集「昵圖網(wǎng)」所有圖片地址

    QueryList::get('http://www.nipic.com')->find('img')->attrs('src');
    登錄后復(fù)制

    采集百度搜索結(jié)果

    $ql = QueryList::get('http://www.baidu.com/s?wd=QueryList');  $ql->find('title')->text(); // 獲取網(wǎng)站標(biāo)題 $ql->find('meta[name=keywords]')->content; // 獲取網(wǎng)站頭部關(guān)鍵詞  $ql->find('h3>a')->texts(); //獲取搜索結(jié)果標(biāo)題列表 $ql->find('h3>a')->attrs('href'); //獲取搜索結(jié)果鏈接列表  $ql->find('img')->src; //獲取第一張圖片的鏈接地址 $ql->find('img:eq(1)')->src; //獲取第二張圖片的鏈接地址 $ql->find('img')->eq(2)->src; //獲取第三張圖片的鏈接地址 // 遍歷所有圖片 $ql->find('img')->map(function($img){     echo $img->alt;  //打印圖片的alt屬性 });
    登錄后復(fù)制

    贊(0)
    分享到: 更多 (0)
    網(wǎng)站地圖   滬ICP備18035694號(hào)-2    滬公網(wǎng)安備31011702889846號(hào)