Método para la extracción masiva de canales de sindicación

  1. Manuel Blázquez Ochando 1
  1. 1 Universidad Complutense de Madrid
    info

    Universidad Complutense de Madrid

    Madrid, España

    ROR 02p0gd045

Revista:
Scire: Representación y organización del conocimiento

ISSN: 1135-3716

Año de publicación: 2017

Volumen: 23

Número: 1

Páginas: 39-45

Tipo: Artículo

DOI: 10.54886/SCIRE.V23I1.4300 DIALNET GOOGLE SCHOLAR lock_openAcceso abierto editor

Otras publicaciones en: Scire: Representación y organización del conocimiento

Resumen

Uno de los problemas para la investigación de la producción informativa de canales de sindicación es contar con la cantidad de fuentes suficientes y del mismo dominio, temática o área de conocimiento, para componer una muestra. Esto se debe a la dispersión de las fuentes de información en la Web y por otra parte a la dificultad del investigador para conocer todos los re-cursos disponibles. A estos problemas se suma la dificultad de extraer y localizar los enlaces de los canales de sindicación en cada recurso o sitio web pertinente que se descubre. En este artículo se aborda el método para extraer los canales de sindicación mediante la composición de semillas para el análisis, con programas web crawler, identificando la configuración y posterior preparación.

Referencias bibliográficas

  • Baeza-Yates, R.; Castillo, C.; Graells, E. (2008). Características de la web chilena 2007. // Technical Report, Center for Web Research, University of Chile.
  • Baporikar, M.; Salvi, S.; Sowany, V.; Sakhare, N. S. (2015). An approach towards news alert systems. // International Journal of Computer Science and Mobile Computing. 4:11 (noviembre 2015) 159-163.
  • Blázquez Ochando, M. (2013a). Sistemas de recuperación e internet: Metadescripción, procesamiento, webcrawling, técnicas de consulta avanzada, hacking documental y posicionamiento web. // Madrid: mblazquez.es
  • Blázquez Ochando, M. (2013b). Desarrollo tecnológico y documental del webcrawler Mbot: prueba de análisis web de la universidad española. // XIII Jornadas Españolas de Documentación Fesabid. (mayo 2013).
  • Blázquez Ochando, M. (2017). Método para el estudio de la producción informativa: Medios digitales de Portugal. // Transinformação. 29:1.
  • BuiltWith (2016). CMS technologies Web Usage Statistics. http://trends.builtwith.com/cms/ (2016-02-01).
  • Eito-Brun, R. (2015). Context-based aggregation of archival data: the role of authority records in the semantic landscape. // Archival Science. 15:3 (February 2014) 217-238.
  • Google. (2015). Google Web Search API (Deprecated). https://developers.google.com/web-search/docs/
  • Google. (2016). Google Alerts. https://www.google.es/alerts Hammersley, B. (2003). Content syndication with RSS. // Sebastopol: O’Reilly, 2003. Houssos, N.; Stamatis, K.; Banos, V.; Kapidakis, S.; Garoufa
  • llou, E.; Koulouris, A. (2011). Implementing enhanced OAI-PMH requirements for Europeana. // Research and Advanced Technology for Digital Libraries. Berlin: Springer, 2011.
  • Huang, Y.; Schuehle, J.; Porter, A. L.; Youtie, J. (2015). A systematic method to create search strategies for emerging technologies based on the Web of Science: illustrated for Big Data. // Scientometrics. 105:3 (July 2015) 2005-2022.
  • Hurtado, J. (2015). Automated System for Improving RSS Feeds Data Quality. // arXiv e-prints. http://arxiv.org/pdf/1504.01433v1 (2016-01-14).
  • Lee, B. S.; Im, J. W.; Hwang, B. Y.; Zhang, D. (2008). Design of an RSS Crawler with Adaptative Revisit Manager // SEKE. 219-222.
  • Lubbers, M. (2015). Adaptable Crawler Specification Generation System for Leisure Activity RSS Feeds. // Nijmegen: Radboud Universiteit, 2015.
  • McCown, F.; Nelson, M. L.; Van de Sompel, H. (2009). Everyone is a curator: human-assisted preservation for ore aggregations. // arXiv e-prints. (Consulta 2016-01-15) http://arxiv.org/pdf/0901.4571v1
  • Nieto, J. Y. (2015). Las revistas sociales personalizadas a través de agregadores compiten con el resto de medios informativos digitales. // Ambitos: Revista internacional de comunicación. 28 (July 2015) 5-13.
  • Peis, E.; Herrera-Viedma, E.; Morales-del-Castillo, J. M. (2008). Modelo de servicio semántico de difusión selectiva de información (DSI) para bibliotecas digitales. // El profesional de la información. 17:5 (diciembre 2007) 519525.
  • Petrova-Antonova, D.; Simov, R. (2011). jQRSS: a jQuery plugin for RSS and Atom feeds parsing. Proceedings of the 12th International Conference on Computer Systems and Technologies. // ACM. (June 2011) 641-646.
  • Prient, C.; Lloret, E.; Palomar, M. (2012). Análisis de la calidad de la información recuperada por sistemas de alertas en el dominio Químico Textil. // II Congreso Español de Recuperación de Información CERI. (junio 2012).
  • Thatcher, A. (2008). Web search strategies: The influence of Web experience and task type. // Information Processing & Management. 44:3 (September 2007) 1308-1329.
  • Thelwall, M.; Prabowo, R.; Fairclough, R. (2006). Are raw RSS feeds suitable for broad issue scanning? A science concern case study. // Journal of the American Society for Information Science and Technology. 57:12 (agosto 2006) 1644-1654.
  • Viseur, R. (2012). Create a Specialized Search Engine – The Case of an RSS Search Engine // Proceedings of the International Conference on Data Technologies and Applications. 245-248.