Analizează conținutul site-ul dvs.

Conținutul Parser: Introducere

Să presupunem că ne interesează informația există pe orice site terță parte și nu este actualizat. Desigur, puteți vizita periodic site-ul cu informații, copiați-l și actualizați de pe site-ul dvs. de notorietate: Ctrl + C și Ctrl + V. Dar nu pot merge, și pentru a încredința sarcina unui simplu script - parserul, care la cerere: va merge la site-ul donator, găsiți și sculpta informațiile de care avem nevoie și afișa pe site-ul nostru. Pur și simplu pune, informațiile de la un alt site vor fi publicate pe dvs. complet automat. În cazul în care perspectiva curcubeu pentru tine - citiți mai departe.







Mi-e dor gândesc la partea etică a acestui caz, atingeți doar partea tehnică. De asemenea, nu suna pe nimeni să folosească această metodă în detrimentul altcuiva! Având în tratate cu detaliile tehnice ale cazului, puteți pregăti apoi widget-uri specifice pentru site-ul dvs., oferind utilizatorilor informații relevante și utile pentru ei. Totul depinde de zbor de gandurile tale!

Deci, scrieți scenariul, care vine la orice site, scoate o bucată de informații necesare pentru noi și să le publice pe site-ul nostru - ca și cum nimic nu sa întâmplat :). Nu au cunoștințe de programare nu aveți nevoie, faceți totul punctul de punct și să încerce punerea în aplicare pe blogul său.

Punerea în aplicare a parserul în PHP

Poate momentul cel mai important în cazul nostru - este de a găsi un donator, care este, site-ul pe care va apărea informația de interes pentru noi. Site-ul trebuie să ruleze fără probleme, își îndeplinesc obligațiile de a actualiza informațiile în mod regulat, iar textul trebuie să fie deschis (de exemplu, vizualizarea codul sursă al paginii în browser - avem nevoie pentru a vedea unde ne interesează informațiile).

În cazul în care site-ul donator și care este necesar pentru a ne pentru pagina parsare este găsit, memora URL-ul și du-te la pasul următor. Creați un fișier text în Notepad, de exemplu, parser.php și plasați codul următor:

Deci, unele 8 linii de cod și de conținut terță parte este publicat automat pe blog-ul nostru. Red în codul desemnate locurile pe care trebuie să le modificați, verde - dacă este necesar. În cazul în care nu este nevoie, puteți pur și simplu eliminați aceste linii, sau le interzice să fie prelucrate (mă refer la linia în care textul verde) - a pus înainte de coasere două linii oblice - //

Avem nevoie de clarificări în bucăți de cod / text care încadrează textul pe care doriți? Este simplu, trebuie să specificați poziția de început și de sfârșit în textul pe care doriți să o analizăm. Deschideți pagina de start pe site-ul si cauta donator ne dorim să textul. De obicei, acesta va începe cu un fel de markup-html ceva de genul -

și se încheie cu aceeași păsărească - de exemplu, . Copiați caracterele din pozițiile inițiale și finale (2 și 3 linii roșii). Amintiți-vă, script-ul nostru Sparsit text, care se află între aceste poziții on-line.







Integrarea cu PHP parser în WordPress

Deci, parser-ul gata. Activitatea sa a fost testat, rezultatele sunt destul. Dar cum să arate conținutul sparsenny pe pagina sau în WordPress înregistrare?

Dacă vom introduce codul de mai sus pentru a posta WordPress, chiar și în modul HTML, din motive de siguranță script-uri WordPress este pur și simplu taie - cenzura nu a ratat.

Cu valorile ferestre-1251 și UTF-8 joc, în mișcare (în funcție de codificarea inițială a donatorului și site-ul pacientului).

Vă avertizez că aceasta este cea mai simpla implementare a parserul în PHP, dar în unele cazuri, este nevoie de nimic mai mult (pentru cei mai mulți bloggeri).

Da, script-ul este declanșat.

asta e ceea ce a dat validator

De la linia 1, coloana 1; la linia 1, coloana 24

Eroare: cap de element este lipsește un exemplu necesar de titlul elementului copil.

De la linia 1, coloana 1; la linia 1, coloana 24

model de conținut pentru cap al elementului:
În cazul în care documentul este un document srcdoc iframe sau dacă informațiile din titlu este disponibil la un protocol de nivel superior: zero sau mai multe elemente de metadate de conținut, din care nu mai mult de unul este un element de titlu și nu mai mult de unul este un element de bază.
În caz contrar: Unul sau mai multe elemente de metadate de conținut, dintre care unul este exact un element de titlu și nu mai mult de unul este un element de bază.

Eroare: sfârșitul rătăcite tag-ul div.

De la linia 4, coloana 13; la linia 4, coloana 18

Eroare: sfârșitul rătăcite tag-ul div.

Din linia 39, coloana 9; la linia 39, coloana 14

Eroare: sfârșitul rătăcite tag-ul div.

De la linia 272, coloana 1; la linia 272, coloana 6

Eroare: Atributul itemprop a fost specificat, dar elementul nu este o proprietate a oricărui element.

De la linia 2, coloana 17; la linia 2, coloana 57

Eroare: Atributul itemprop a fost specificat, dar elementul nu este o proprietate a oricărui element.

De la linia 3, coloana 21; la linia 3, coloana 80

Vyacheslav de bun venit, a vrut să facă o linie de rulare cu vremea informatorilor, și cu care se confruntă Poser
Sam ticker pe site-ul donator este după cum urmează

846
° C
° F
Se simțea ca 5 ° C41 ° ore F2 acum la stația meteo (38 km), a fost de +5,8 ° C,
+42 ° F, noros, presiunea atmosferică în intervalul normal, umiditate ridicată (71%), briză ușoară (2 m / s) (7 km / h) (4 mile / oră) (4 noduri) (2 bf) suflare de la nord-nord-est. Ploaie ușoară.

Nu am prea mult să taie prin toate str_replace sau opțiuni?
Am nevoie să-l aducă totul la forma
8
Se simțea ca și 5 ° C
vreme tulbure, presiunea atmosferică în intervalul normal, umiditate ridicată (71%), briză ușoară (2 m / s) (7 km / h)

Bună ziua, spune-mi cum să obțineți cele mai recente serii prin intermediul parsing. Codul arată, de exemplu, ca aceasta:
seria 2
seria 3
seria 4
episodul 5
episodul 6
seria 7

tot ce am nevoie este de a aduce cele mai recente serii, adică, „Seria 7“

În principiu, toate elementele pot fi plasate în matrice și scoateți ultimul element prin array_pop
exemplu:

partea morală și etică nu vă faceți griji, totul este în regulă. Doar pregătirea pentru mutare, care a tras deja de ani de zile. ((A actualiza manual fișierele pe o bază de zi cu zi nu este suficient în orice moment.

Lonjeroane poate fi, dar va fi HTML-versiune a site-ului (fara motor).
Aveți posibilitatea să glisați în același mod cu privire la conținutul site-ului motorului, dar va fi site-ul de configurare + parsing

Eu nu sunt pe deplin înțeles, dar trebuie să utilizați variabile (le trimite la POST script-ul sau cererea GET).