logo

Svinstvo jménem scraping

Nedávno se mi dostalo do rukou Chrome rozšíření FB UID Scraper, což víceméně potvrdilo moje nejhorší domněnky o tom, co se dá v prostředí sociálních sítí s trochou šikovnosti zjistit. Modří tuší, co za “prasárny” může taková věc spuštěná v prohlížeči zhruba dělat. Těm ostatním, realitou nepolíbeným, se omlouvám, že možná zkazím den…

Web scraping (web harvesting či web data extraction) je technika získávání dat , kterou se dají strojově (respektive i ručně) extrahovat data z webových stránek. Nástroj (případně bot, crawler) nahlédne do strukturování webu a jen sklízí, co najde (z toho taky ten pojem harvesting). Ze zcela pochopitelných důvodů se k web scrapingu váže hodně připomínek k právu a legalitě. Upřímně není divu. Scrapovat se dají třeba jen obrázky určité velikosti, konkrétní texty, zcela specificky definovaná metadata apod. Využít se dá přístupu přes API nebo přes “pouhé” členění dat dle HTML či jiného mark-up jazyka. Výsledkem je strukturovaný data set, zpravidla v *.csv nebo *.txt formátu.

Malý příklad místo teorie a důkazy namísto slibů:

S pomocí Graph Search na FB1 jsem si vyhledala lidi, kteří “lajkují” stránku iniciativy Chci si s vámi promluvit, pane prezidente Online. Scraper nejde “bohužel” využít na získání dat účastníků události, ale funguje právě jen na scraping výsledků vyhledávání. V rohu prohlížeče vám vyskočí facebookově modrá lišta a zatímco na pozadí probíhá scraping, můžete se rozhodnout, který výstupní formát se vám hodí nejvíc. Já zvolila export pro Excel, Scraper mi dodal *.txt připravené pro další práci třeba v Google Docs. So far so good…

Facebook mi v informaci stránky tvrdí, že fanoušků stránky Chceme si s vámi promluvit, pane prezidente Online je 2 226, Scraper jich nakonec vytáhl 2 378. Open Refine, ve kterém jsem data dál čistila, pak ukázal, že ne všechno vypadá pochopitelně tak, jak se to na první pohled tváří. Počet řádek (tj. počet unikátních uživatelů podle FB UID) spadl po identifikaci a vymazání duplikátů na 1 152 řádků. Ta číselná diskrepance mě trochu zmátla, ale…

Důležitý není až tak počet uživatelů, které Scraper na jeden request získá, jako spíš rozsah informací, které jsem si za jedno odpoledne o uživatelích vytáhla. Namátkově tedy:

  • u každého uživatele (až na cca 20 unidentified výjimek) vím jeho ID, což je jeho jasný identifikátor, ať udělá na FB cokoliv
  • znám přesnou URL adresu, kde se jejich profil na FB nachází
  • znám celá jména (včetně přezdívek a familiérních oslovení) uživatelů a k nim přidružené informace (z čehož se dá díky pár klikům seskupovat jména a odvozovat nejčastější výskyt jmen a příjmení napříč celou zkoumanou skupinou apod.)
  • vím, ve kterém městě bydlí, kam chodili na školu, případně i kde momentálně pracují (vše pokud mají uvedeno veřejně na svém profilu…a že mají 😉 )
  • vím, kolik dalších stránek na FB lajkují (minimálně název jedné další mi to podle relevance i ukáže)
  • kdybych se trochu víc snažila, není problém zjistit, kolik má přátel, stáhnout strojově jejich profilové a cover fotky apod.

Kamarádka mi mezi řečí jednou sdělila, že na sebe dokážu v online prostoru napráskat snad všechno, co se dá. Nebudu tvrdit, že to není tak úplně pravda. Jenže po tolika letech, co se pohybuju v prostředí, kde můj krok bedlivě sleduje kdejaká “cookina” a kontextová reklama mi dává dobrou noc, jsem ztratila už veškeré iluze. Iluze o tom, že by o mně nikdo nezvládl nic zjistit, kdyby se jen trochu snažil. De facto je totiž vážně jedno, co a kde na sebe v online světě zvládnete prozradit. Způsoby, jak se k některým datům dostat, jsou při troše snahy jen zábava pro bandu novomediálně cvičených “opic” na jedno nedělní odpoledne…

———-

1 – inteligentní vyhledávání Facebooku využívající big data celé facebookové populace. Vyhledává podle “přirozeného” jazyku uživatelů, respektive podle tématických okruhů, např. “People who live in Prague and like cats”.

Published by

Leni

Data-driven & social media researcher girl going places🚀 🤓 Geek, nerdy & tech news about social media, digital marketing, books & movies, and R programming. 💻 📚 Czech globe-trotter in love with Sweden. 🌍

One thought on “Svinstvo jménem scraping”

Leave a reply

Vaše emailová adresa nebude zveřejněna. Vyžadované informace jsou označeny *

This site uses Akismet to reduce spam. Learn how your comment data is processed.