?
Проверка закона ципфа по данным Google Labs.
В конце 40-х годов ХХ столетия Ципф, собрав статистический материал, попытался показать, что распределение слов языка подчиняется закону, который можно сформулировать следующим образом. Если все слова языка (или просто достаточно длинного текста) упорядочить по убыванию частоты их использования, то частота слова в таком списке окажется приблизительно обратно пропорциональной его порядковому номеру (рангу этого слова). Автором был проверен закон Ципфа для английского, немецкого, французского, русского и испанского языков по данным, предоставленным Google Labs. Проверялся закон для первой тысячи наиболее встречаемых слов. Так как до 1806 года данных представлено мало, и в первой тысяче слов встречаются нулевые частоты, то из рассмотрения их исключили. Для проверки закона была начерчена в двойных логарифмических координатах зависимость ранга слова от частоты его встречаемости, по методу наименьших квадратов были подобрали коэффициенты модели. Значения этих коэффициента получились близкие к единице, например в английском языке значения лежат в интервале от 0.904 до 1.03, как и в самом законе Ципфа. Самый маленький коэффициент получился в русском языке, коэффициент a равен 0.88. По полученным результатам можно сделать вывод, что гипотеза применяется для всех рассматриваемых выборок данных, т.е. закон Ципфа выполняется для любого языка 1806 по 2008 год по 12% всех когда-либо выпущенных книг, которые отсканировало Google Labs.