{ "cells": [ { "cell_type": "markdown", "id": "e0c70120", "metadata": {}, "source": [ "# Regularni izrazi\n", "\n", "Običajno moramo podatke, ki jih želimo analizirati, najprej prečistiti. Na primer, svetovni splet je bogat vir podatkov, vendar so ti dostikrat dostopni le v formatu HTML, ki poleg koristne vsebine vsebuje še marsikaj. Recimo, da nas zanimajo podatki o [250 filmih z največ glasovi na strani IMDB](https://www.imdb.com/search/title/?sort=num_votes,desc&title_type=feature&count=250). Vidimo, da stran ponuja veliko koristnih podatkov: naslov, leto izida, dolžno, žanre, ocene, igralce, opise, ...\n", "\n", "![250 najbolj znanih filmov](slike/250-najbolj-znanih-filmov.png)\n", "\n", "Če pa v brskalniku shranimo izvorno kodo in HTML datoteko odpremo, pa je podatke težko najti." ] }, { "cell_type": "code", "execution_count": 1, "id": "ebafef89", "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "\n", "\n", "\n", "\n", "\n", " \n", "