Web scraping utilizando Python

Tema en 'Manuales y Tutoriales' iniciado por Mandr4k3, 28 Mar 2018.

Etiquetas:
  1. Mandr4k3

    Mandr4k3 Usuario Casual nvl. 2
    37/41

    Registrado:
    8 Jun 2006
    Mensajes:
    2.836
    Me Gusta recibidos:
    8
    ¿Que es web scraping?

    Web scraping es una técnica utilizada mediante programas de software para extraer información de sitios web. Usualmente, estos programas simulan la navegación de un humano en la World Wide Web ya sea utilizando el protocolo HTTP manualmente, o incrustando un navegador en una aplicación.

    El web scraping está muy relacionado con la indexación de la web, la cual indexa la información de la web utilizando un robot y es una técnica universal adoptada por la mayoría de los motores de búsqueda.

    Ref: Wikipedia

    Utilizando Python 2.7 desarrollaremos un sencillo web scraping para obtener los datos de un sitio de insumos y crear un archivo csv.

    En nuestra cabecera de Python declaramos donde esta el binario (Linux y Mac OSX) y luego la codificación a utilizar.

    Insertar CODE, HTML o PHP:
    #! /usr/bin/env python
    # -*- coding: utf8 -*-
    
    Una de las cosas potentes en Python son las librerias, en este caso se utilizan 2: Request y BeautifulSoup. Estás se instalan utilizando pip

    Insertar CODE, HTML o PHP:
    pip install beautifulsoup4
    pip install requests
    Una vez instaladas, las importamos en nuestro proyecto de Python

    Insertar CODE, HTML o PHP:
    import requests
    import bs4 as bs
    
    Aquí les dejo el código explicado de ejemplo: https://pastebin.com/QftHMKfL

    Si les intereso el tema, revisen la documentación de Beautiful Soup: https://www.crummy.com/software/BeautifulSoup/bs4/doc/

    Cheers!
     
    A fearman22 le gusta esto.