Back to Question Center
0

Semalt: 3 Awọn Igbesẹ Lati Oju-iwe Ayelujara Oju-iwe Ayelujara ti Windows Page

1 answers:

Ṣiṣẹ oju-iwe ayelujara, ti a npe ni isediwon data ayelujara tabi ikore wẹẹbu, ni ilana ti n ṣawari data lati aaye ayelujara tabi bulọọgi. A lo alaye yii lati ṣeto awọn afiwe afi, awọn apejuwe awọn meta, awọn koko-ọrọ ati awọn asopọ si aaye kan, imudarasi iṣẹ-iyẹwo rẹ ni awọn abajade iwadi wiwa.

  • Parsing iwe - O ni nkan ti XML tabi HTML ti o ti yipada si DOM (Iwe Ohun elo Iwe-aṣẹ)

    . ) awọn faili. PHP n pese wa pẹlu itọnisọna DOM nla.

  • Awọn idarọ deede - O jẹ ọna ti n ṣawari awọn alaye lati awọn oju-iwe wẹẹbu ni irisi awọn ọrọ deede - hospedagem gratis 30 dias.
  • Oro yii pẹlu awọn alaye ti o ṣawari ti aaye ayelujara ti ẹnikẹta ni o ni ibatan si aṣẹ lori ara rẹ nitori pe o ko ni igbanilaaye lati lo data yii. Ṣugbọn pẹlu PHP, o le ṣawari awọn alaye laisi awọn iṣoro ti o ni asopọ pẹlu awọn aṣẹ lori ara tabi didara kekere. Gẹgẹbi olupese eto PHP kan, o le nilo data lati awọn aaye ayelujara oriṣiriṣi fun awọn idiyele ifaminsi. Nibi ti a ti ṣe alaye bi a ṣe le gba awọn data lati awọn aaye miiran daradara, ṣugbọn ki o to pe, o yẹ ki o ranti pe ni opin iwọ yoo gba boya index.php tabi faili scrape.js.

    Igbesẹ1: Ṣẹda Fọọmù lati tẹ URL wẹẹbu naa:

    Ni akọkọ, o yẹ ki o ṣẹda fọọmu ni index.php nipa tite lori bọtini Gbigbe ati tẹ URL aaye ayelujara fun sisẹ data.



    Tẹ Oju-aaye ayelujara URL Lati Scrape Data

    (44 )


    Igbesẹ 2: Ṣẹda Išakoso PHP lati Gba Awọn aaye ayelujara wẹẹbu:

    Igbesẹ keji ni lati ṣẹda Išẹ PHP ṣiṣẹ ni faili scrape.php bi o ṣe le ṣe iranlọwọ gba data ati lo iwe-kikọ URL. O tun yoo gba ọ laaye lati sopọ ki o si ṣe ibasọrọ pẹlu awọn olupin ati awọn ilana laisi laisi eyikeyi oro..

    iṣẹ scrapeSiteData ($ website_url) {

    ti o ba ti (! Function_exists ('curl_init')) {

    kú ('CURL ko ba ti fi sii. Jọwọ fi sori ẹrọ ati gbiyanju lẹẹkansi. ');

    }

    $ curl = curl_init

    ;

    curl_setopt ($ curl, CURLOPT_URL, $ website_url);

    curl_setopt ($ curl, CURLOPT_RETURNTRANSFER, otitọ);

    $ o wu = curl_exec ($ curl);

    curl_close ($ curl);

    pada $ awọn oṣiṣẹ;

    }

    Nibi, a le rii boya a ti fi sori ẹrọ PHP cURL daradara tabi rara. Awọn atupọ akọkọ mẹta ni a gbọdọ lo ni awọn iṣẹ agbegbe ati curl_init

    yoo ṣe iranlọwọ ni akọkọ awọn akoko, curl_exec

    yoo ṣe o ati curl_close

    yoo ṣe iranlọwọ pa isopọ mọ. Awọn oniyipada bi CURLOPT_URL ni a lo lati ṣeto oju-iwe ayelujara Awọn URL ti a nilo lati ṣawari. CURLOPT_RETURNTRANSFER keji yoo ṣe iranlọwọ lati tọju awọn oju-iwe ti a fi oju ti o wa ni fọọmu fọọmu ju fọọmu fọọmu rẹ, eyi ti yoo han ni oju-iwe ayelujara gbogbo.

    Igbesẹ3: Wọle Data Pataki lati Aaye ayelujara:

    O jẹ akoko lati mu awọn iṣẹ ṣiṣe ti faili PHP rẹ ki o si yọkuro apakan pato ti oju-iwe ayelujara rẹ. Ti o ko ba fẹ gbogbo data lati URL kan pato, o yẹ ki o satunkọ lilo awọn oniyipada CURLOPT_RETURNTRANSFER ki o si ṣe afihan awọn abala ti o fẹ lati pa.

    ti o ba ti (bẹrẹ ($ _ POST ['firanṣẹ'])) (

    $ html = scrapeWebsiteData ($ _ POST ['website_url']);

    $ start_point = strup ($ html, 'Awọn abajade tuntun');

    $ end_point = strup ($ html, '', $ start_point);

    $ ipari = $ end_point- $ start_point;

    $ html = substr ($ html, $ start_point, $ ipari);

    tunṣe $ html;

    }

    A ṣe iṣeduro fun ọ lati dagbasoke imoye ti o ni ipilẹ ti PHP ati awọn Ọrọ ti deede ṣaaju ki o to lo eyikeyi ninu awọn koodu wọnyi tabi ṣawari bulọọgi kan tabi aaye ayelujara fun awọn idi ti ara ẹni.

    December 8, 2017