Для цитирования:
Сантини М. Веб-страницы, типы текстов и лингвистические характеристики: некоторые вопросы // Жанры речи. 2019. № 1 (21). С. 22-33. DOI: 10.18500/2311-0740-2019-1-21-22-33
Веб-страницы, типы текстов и лингвистические характеристики: некоторые вопросы
С текстологической точки зрения веб - место, в котором сосредоточено огромное количество документов. В вебе практически всё может быть рассмотрено как «документ» или, что является более подходящим термином, как «веб-страница». То количество текстов, которое представлено в вебе, превышает все мыслимые пределы. Более того, веб дик и неконтролируем. Это становится ясным, если мы сравним «приручённый» источник мира бумажных текстов, такой как Британская Национальная Библиотека, и «неукрощённый» английский веб. В данном эмпирическом исследовании были изучены текстовые типологии случайной коллекции предварительно необработанных веб-страниц, не взятых из корпуса предварительно обработанных и отобранных документов. Было установлено, что текстуальность веб-страниц может отличаться от текстуальности линейных документов (не имеет значения, бумажных или электронных). Новая текстуальность усложняет автоматическое извлечение особенностей и применение средств АОТ. Также было установлено, что текстовые типологии, которые уже предложены исследователями, можно применить не для всех типов веб-страниц. На спорные вопросы, отмеченные в данной работе, нельзя ответить однозначно. В данный момент времени моим предложением остаётся то, что их следует учитывать при анализе результатов применения любого автоматического метода к веб-страницам.
- Adam J.-M. Les textes : types et prototypes. Récit, description, argumentation, explication et dialogue. Paris, Nathan, 1992.
- Beaudouin V., Fleury S., Habert B., Illouz G., Licoppe C., Pasquier M. Traits textuels, structurels et présentationnels pour typer les sites web personnels et marchands. 2001. Available at: http://www.atala.org/je/010428/TyPWeb.ppt.
- Beaudouin V., Fleury S., Habert B., Illouz G., Licoppe C., Pasquier M. TyPWeb: décrire la toile pour mieux comprendre les parcours. Colloque International sur les Usages et les Services des Télécommunications, e-Usages, no pagination, Paris, 2001.
- Beaugrande R.-A., Dressler W. Introduction to text linguistics. London, New York, Longman, 1981.
- Biber D. A typology of English texts. Linguistics, 1989, vol. 27, pp. 3-43.
- Biber D. Dimensions of register variation. Cambridge, Cambridge University Press, 1995.
- Biber D. Variation across speech and writing. Cambridge, Cambridge University Press, 1988.
- Biber D.Towards a typology of web registers: A multi-dimensional analysis. Invited lecture, Conference on Corpus Linguistics, Perspectives for the future. University of Heidelberg, Germany, 2004.
- Bouayad-Agha N., Scott D., Power P. Integrating content and style in documents: A case study of patient information leaflets. Information Design Journal, 2000, vol. 9, no. 2-3, pp. 161-176.
- Crowston K. Williams M. The effects of linking on genres of web documents. Proceedings of the32nd Hawaii International Conference on System Sciences, Hawaii, USA, 1999, no pagination.
- Douglas S., Hurst M. Layout and language: Lists and tables in technical documents. In: Proceedings ofSIGPARSE Workshop on Punctuation in Computational Linguistics. Santa Cruz, 1996, pp. 19-24.
- Eagles 1996. EAGLES preliminary recommendations on text typology. EAGLES Document EAG-TCWG-TTYP/P, Version of June, 1996. Available at: http://www.ilc.cnr.it/EAGLES96/texttyp/texttyp.html.
- Faigley L., Meyer P. Rhetorical theory and readers’ classification of text types. Text, 1983, vol. 3, pp. 305-325.
- Görlach M. Text types and the history of English. Berlin, New York, Mouton de Gruyter, 2004.
- Haas S., Grams E. Page and link classifications: Connecting diverse resources. Proceedings of Digital Libraries’98, Pittsburgh USA, 1998, pp. 99-107.
- Haas S., Grams E. Readers, authors, and page structure: A discussion of four questions arising from a content analysis of web pages. Journal of the American Society for Information Science, 2000, vol. 51, no. 2, pp. 181-192.
- Hurst M. Layout and language: Challenges for table understanding on the web. In: Proceedings of the 1st International Workshop on Web Document Analysis, no pagination, Seattle, USA, 2001.
- Ihlström C. Åkesson M. Genre characteristics - a front page analysis of 85 Swedish online newspapers. Proceedings of the 37th Hawaii International Conference on System Science, Hawaii, USA, 2004, no pagination.
- Ihlström C., Lundberg J. The online news genre through the user perspective. Proceedings of the 36th Hawaii International Conference on System Science, no pagination, Hawaii, USA, 2003.
- Joho H., Sanderson M. The SPIRIT collection: An overview of a large web collection. SIGIR Forum, 2004, vol. 38, no. 2, no pagination.
- Karlgren J. Stylistic experiments for information retrieval. Thesis Diss. Doct. Sci. (Philos.). Stockholm University, 2000.
- Roberts G. The home page as genre: A narrative approach. Proceedings of the 31st Hawaii International Conference on System Science. Hawaii, USA, 1998, no pagination.
- Santini M. Automatic Text Analysis: Gradations of text types in web pages. Proceedings of the Tenth ESSLLI Student Session, Edinburgh UK, 2005, pp. 276-285.
- Say B., Akman V. Current approaches to punctuation in computational linguistics. Computers and the Humanities, 1997, vol. 30, no. 6, pp. 457-469.
- Shepherd M., Watters C. The functionality attribute of cybergenres. Proceedings of the 32nd Hawaii International Conference on System Science Hawaii, USA, 1999, no pagination.
- Stubbs M. Text and corpus analysis. Oxford, Blackwell Publishers, 1996.
- Tapanainen P., Järvinen T. A non-projective dependency parser. Proceedings of the 5th Conference on Applied Natural Language Processing. Washington USA, 1997, pp. 64-71.
- Waller R. The typographic contribution to language. Thesis submitted for the degree of Doctor of Philosophy, University of Reading, UK, 1987.
- Werlich E. A text grammar of English. Heidelberg, Quelle and Meyer, 1976.