Web scraping utilizando Python

Discussion in 'Manuales y Tutoriales' started by Mandr4k3, Mar 28, 2018.

  1. Mandr4k3

    Mandr4k3 Usuario Casual nvl. 2
    37/41

    Joined:
    Jun 8, 2006
    Messages:
    2,836
    Likes Received:
    8
    ¿Que es web scraping?

    Web scraping es una técnica utilizada mediante programas de software para extraer información de sitios web. Usualmente, estos programas simulan la navegación de un humano en la World Wide Web ya sea utilizando el protocolo HTTP manualmente, o incrustando un navegador en una aplicación.

    El web scraping está muy relacionado con la indexación de la web, la cual indexa la información de la web utilizando un robot y es una técnica universal adoptada por la mayoría de los motores de búsqueda.

    Ref: Wikipedia

    Utilizando Python 2.7 desarrollaremos un sencillo web scraping para obtener los datos de un sitio de insumos y crear un archivo csv.

    En nuestra cabecera de Python declaramos donde esta el binario (Linux y Mac OSX) y luego la codificación a utilizar.

    Code:
    #! /usr/bin/env python
    # -*- coding: utf8 -*-
    
    Una de las cosas potentes en Python son las librerias, en este caso se utilizan 2: Request y BeautifulSoup. Estás se instalan utilizando pip

    Code:
    pip install beautifulsoup4
    pip install requests
    Una vez instaladas, las importamos en nuestro proyecto de Python

    Code:
    import requests
    import bs4 as bs
    
    Aquí les dejo el código explicado de ejemplo: https://pastebin.com/QftHMKfL

    Si les intereso el tema, revisen la documentación de Beautiful Soup: https://www.crummy.com/software/BeautifulSoup/bs4/doc/

    Cheers!
     
    fearman22 likes this.