Show simple item record

dc.rights.licenseAtribución-NoComercial 4.0 Internacional
dc.contributor.authorGuerrero, Fabio G.
dc.date.accessioned2019-07-03T14:40:11Z
dc.date.available2019-07-03T14:40:11Z
dc.date.issued2012
dc.identifier.urihttps://repositorio.unal.edu.co/handle/unal/71828
dc.description.abstractSe presenta una discusión sobre la entropía de la lengua española por medio de un método práctico para el cálculo de la entropía de un texto mediante procesamiento informático directo. Como un ejemplo de aplicación, se analizan treinta muestras de texto español, sumando un total de 22,8 millones de caracteres. Longitudes de símbolos desde n = 1 hasta 500 fueron consideradas tanto para palabras como caracteres. Para el cálculo de la distribución de probabilidad de los símbolos se emplearon procesamiento directo por computador y la ley de probabilidad de los grandes números. Se presenta una relación empírica de la entropía con la longitud del texto (en caracteres) y el número de palabras diferentes en el texto. Se analizan también propiedades estadísticas de la lengua española cuando se considera como producida por una fuente estocástica, tales como la invarianza al desplazamiento del origen, ergodicidad y la propiedad de equipartición asintótica.
dc.description.abstractA discussion on the entropy of the Spanish language by means of a practical method for calculating the entropy of a text by direct computer processing is presented. As an example of application, thirty samples of Spanish text are analyzed, totaling 22.8 million characters. Symbol lengths from n = 1 to 500 were considered for both words and characters. Both direct computer processing and the probability law of large numbers were employed for calculating the probability distribution of the symbols. An empirical relation on entropy involving the length of the text (in characters) and the number of different words in the text is presented. Statistical properties of the Spanish language when viewed as produced by a stochastic source, (such as origin shift invariance, ergodicity and asymptotic equipartition property) are also analyzed.
dc.language.isospa
dc.publisherUniversidad Nacional de Colombia
dc.relationhttp://revistas.unal.edu.co/index.php/estad/article/view/36878
dc.relation.ispartofUniversidad Nacional de Colombia Revistas electrónicas UN Revista Colombiana de Estadística
dc.relation.ispartofRevista Colombiana de Estadística
dc.relation.ispartofseriesRevista Colombiana de Estadística; Vol. 35, núm. 3 (2012); 423-440 Revista Colombiana de Estadística; Vol. 35, núm. 3 (2012); 423-440 0120-1751
dc.rightsDerechos reservados - Universidad Nacional de Colombia
dc.rights.urihttp://creativecommons.org/licenses/by-nc/4.0/
dc.titleSobre la entropía del español escrito
dc.typeArtículo de revista
dc.type.driverinfo:eu-repo/semantics/article
dc.type.versioninfo:eu-repo/semantics/publishedVersion
dc.identifier.eprintshttp://bdigital.unal.edu.co/36300/
dc.relation.referencesGuerrero, Fabio G. (2012) Sobre la entropía del español escrito. Revista Colombiana de Estadística; Vol. 35, núm. 3 (2012); 423-440 Revista Colombiana de Estadística; Vol. 35, núm. 3 (2012); 423-440 0120-1751 .
dc.rights.accessrightsinfo:eu-repo/semantics/closedAccess
dc.subject.proposalLaw of large numbers
dc.subject.proposalShannon entropy
dc.subject.proposalStochastic process
dc.subject.proposalZipf’s law
dc.subject.proposalentropía de Shannon
dc.subject.proposalley de grandes números
dc.subject.proposalley de Zipf
dc.subject.proposalprocesos estocásticos
dc.type.coarhttp://purl.org/coar/resource_type/c_6501
dc.type.coarversionhttp://purl.org/coar/version/c_970fb48d4fbd8a85
dc.type.contentText
dc.type.redcolhttp://purl.org/redcol/resource_type/ART
oaire.accessrightshttp://purl.org/coar/access_right/c_14cb


Files in this item

FilesSizeFormatView

There are no files associated with this item.

This item appears in the following Collection(s)

Show simple item record

Atribución-NoComercial 4.0 InternacionalThis work is licensed under a Creative Commons Reconocimiento-NoComercial 4.0.This document has been deposited by the author (s) under the following certificate of deposit