Método para la extracción masiva de canales de sindicación

  1. Manuel Blázquez Ochando 1
  1. 1 Universidad Complutense de Madrid
    info

    Universidad Complutense de Madrid

    Madrid, España

    ROR 02p0gd045

Revue:
Scire: Representación y organización del conocimiento

ISSN: 1135-3716

Année de publication: 2017

Volumen: 23

Número: 1

Pages: 39-45

Type: Article

DOI: 10.54886/SCIRE.V23I1.4300 DIALNET GOOGLE SCHOLAR lock_openAccès ouvert editor

D'autres publications dans: Scire: Representación y organización del conocimiento

Résumé

One of the problems for investigating the informative production of syndication channels is counting on the sufficient number of sources from the same domain, subject or area of knowledge, to compile a sample. This is a consequence of the dispersion of information sources on the Web; the researcher’s difficulty in knowing all the available resources; and the difficulty in extracting and locating the links of syndication channels in every relevant website or Internet resource that is discovered. This article discusses the method to extract and compile syndication channels through the composition of seeds using a web crawler, and the configuration and subsequent processing of the obtained links.

Références bibliographiques

  • Baeza-Yates, R.; Castillo, C.; Graells, E. (2008). Características de la web chilena 2007. // Technical Report, Center for Web Research, University of Chile.
  • Baporikar, M.; Salvi, S.; Sowany, V.; Sakhare, N. S. (2015). An approach towards news alert systems. // International Journal of Computer Science and Mobile Computing. 4:11 (noviembre 2015) 159-163.
  • Blázquez Ochando, M. (2013a). Sistemas de recuperación e internet: Metadescripción, procesamiento, webcrawling, técnicas de consulta avanzada, hacking documental y posicionamiento web. // Madrid: mblazquez.es
  • Blázquez Ochando, M. (2013b). Desarrollo tecnológico y documental del webcrawler Mbot: prueba de análisis web de la universidad española. // XIII Jornadas Españolas de Documentación Fesabid. (mayo 2013).
  • Blázquez Ochando, M. (2017). Método para el estudio de la producción informativa: Medios digitales de Portugal. // Transinformação. 29:1.
  • BuiltWith (2016). CMS technologies Web Usage Statistics. http://trends.builtwith.com/cms/ (2016-02-01).
  • Eito-Brun, R. (2015). Context-based aggregation of archival data: the role of authority records in the semantic landscape. // Archival Science. 15:3 (February 2014) 217-238.
  • Google. (2015). Google Web Search API (Deprecated). https://developers.google.com/web-search/docs/
  • Google. (2016). Google Alerts. https://www.google.es/alerts Hammersley, B. (2003). Content syndication with RSS. // Sebastopol: O’Reilly, 2003. Houssos, N.; Stamatis, K.; Banos, V.; Kapidakis, S.; Garoufa
  • llou, E.; Koulouris, A. (2011). Implementing enhanced OAI-PMH requirements for Europeana. // Research and Advanced Technology for Digital Libraries. Berlin: Springer, 2011.
  • Huang, Y.; Schuehle, J.; Porter, A. L.; Youtie, J. (2015). A systematic method to create search strategies for emerging technologies based on the Web of Science: illustrated for Big Data. // Scientometrics. 105:3 (July 2015) 2005-2022.
  • Hurtado, J. (2015). Automated System for Improving RSS Feeds Data Quality. // arXiv e-prints. http://arxiv.org/pdf/1504.01433v1 (2016-01-14).
  • Lee, B. S.; Im, J. W.; Hwang, B. Y.; Zhang, D. (2008). Design of an RSS Crawler with Adaptative Revisit Manager // SEKE. 219-222.
  • Lubbers, M. (2015). Adaptable Crawler Specification Generation System for Leisure Activity RSS Feeds. // Nijmegen: Radboud Universiteit, 2015.
  • McCown, F.; Nelson, M. L.; Van de Sompel, H. (2009). Everyone is a curator: human-assisted preservation for ore aggregations. // arXiv e-prints. (Consulta 2016-01-15) http://arxiv.org/pdf/0901.4571v1
  • Nieto, J. Y. (2015). Las revistas sociales personalizadas a través de agregadores compiten con el resto de medios informativos digitales. // Ambitos: Revista internacional de comunicación. 28 (July 2015) 5-13.
  • Peis, E.; Herrera-Viedma, E.; Morales-del-Castillo, J. M. (2008). Modelo de servicio semántico de difusión selectiva de información (DSI) para bibliotecas digitales. // El profesional de la información. 17:5 (diciembre 2007) 519525.
  • Petrova-Antonova, D.; Simov, R. (2011). jQRSS: a jQuery plugin for RSS and Atom feeds parsing. Proceedings of the 12th International Conference on Computer Systems and Technologies. // ACM. (June 2011) 641-646.
  • Prient, C.; Lloret, E.; Palomar, M. (2012). Análisis de la calidad de la información recuperada por sistemas de alertas en el dominio Químico Textil. // II Congreso Español de Recuperación de Información CERI. (junio 2012).
  • Thatcher, A. (2008). Web search strategies: The influence of Web experience and task type. // Information Processing & Management. 44:3 (September 2007) 1308-1329.
  • Thelwall, M.; Prabowo, R.; Fairclough, R. (2006). Are raw RSS feeds suitable for broad issue scanning? A science concern case study. // Journal of the American Society for Information Science and Technology. 57:12 (agosto 2006) 1644-1654.
  • Viseur, R. (2012). Create a Specialized Search Engine – The Case of an RSS Search Engine // Proceedings of the International Conference on Data Technologies and Applications. 245-248.