Exploiting content redundancy for web information extraction | Publicación