Диаграма на честотата на използване на букви на руски език. Честотата на използване на букви в руския език. Как да получите информация за използването на отделни форми на дума

Честотата на използване на букви на руски език

Знаете ли, че някои букви от азбуката се срещат в думите по-често от други... Освен това честотата на гласните в езика е по-висока от съгласните.

Кои букви от руската азбука са най-често или най-малко разпространени в думите, използвани за писане на текст?

Откритие и изследване общи моделизанимава се със статистика. С помощта на това научно направление може да се отговори на горния въпрос, като се преброи броят на всяка от буквите на руската азбука, използваните думи, като се избере откъс от произведенията на различни автори. За свой интерес и заради скуката всеки може да го направи сам. Ще се позова на статистиката на вече проведено проучване ...

Руската азбука е кирилица. По време на своето съществуване той е претърпял няколко реформи, които доведоха до формирането на съвременната руска азбучна система, която включва 33 букви.

o - 9,28%
а — 8,66%
д - 8,10%
и - 7,45%
n - 6,35%
t - 6,30%
p - 5,53%
в - 5,45%
л - 4,32%
в — 4,19%
k - 3,47%
n - 3,35%
m - 3,29%
г - 2,90%
д - 2,56%
I - 2,22%
s — 2,11%
б - 1,90%
ч - 1,81%
б - 1,51%
г - 1,41%
ти - 1,31%
ч - 1,27%
ю - 1,03%
х - 0,92%
g - 0,78%
w - 0,77%
в - 0,52%
u - 0,49%
f - 0,40%
д - 0,17%
б — 0,04%

Руската буква с най-висока честота на използване е гласната " О“, както правилно беше предложено тук. Също така има характерни примери, като " ОТБРАНИТЕЛНА СПОСОБНОСТ„(7 парчета с една дума и нищо екзотично или изненадващо; много познато на руския език). Високата популярност на буквата "О" до голяма степен се дължи на такива граматически феноменкато пълно съгласие. Тоест "студено" вместо "студено" и "слана" вместо "измет".

И в самото начало на думите, съгласната буква „ П". Това лидерство също е уверено и безусловно. Най-вероятно обяснението дава голям брой префикси с буквата „P“: re-, pre-, pre-, pre-, pro- и други.

Честотата на буквите е в основата на криптоанализа.

Искам да ви предупредя, че информацията, представена в тази статия, е малко остаряла. Не го пренаписах, за да мога по-късно да сравня как се променят SEO стандартите с времето. Актуална информация за тази темаможете да научите от нови материали:

Здравейте, скъпи читатели на сайта на блога. Днешната статия отново ще бъде посветена на такава тема като оптимизация за търсачки (). По-рано вече засегнахме много въпроси, свързани с такова понятие като.

Днес искам да продължа да говоря за on-page SEO, като същевременно изясня някои от точките, споменати по-рано, както и да говоря за това, което все още не сме обсъдили. Ако сте в състояние да пишете добри уникални текстове, но в същото време не обръщате необходимото внимание на възприемането им от търсачките, тогава те няма да могат да си проправят път до върха на резултатите от търсенето за заявки, свързани с темите на вашите прекрасни статии.

Какво влияе върху уместността на текста към заявката за търсене

И това е много тъжно, защото по този начин не реализирате пълния потенциал на вашия проект, който може да бъде много впечатляващ. Трябва да разберете, че търсачките в по-голямата си част са глупави и ясни програми, които не са в състояние да надхвърлят своите възможности и да погледнат на вашия проект с човешки очи.

Те няма да видят много от това, което е добро и необходимо във вашия проект (това, което сте подготвили за посетители). Те могат само да анализират текста, като вземат предвид много компоненти, но все още са много далеч от човешкото възприятие.

Следователно ще трябва да влезем в обувките на роботите за търсене поне за известно време и да разберем върху какво се фокусират, когато класират различни текстове за различни заявки за търсене (). И за това трябва да имате представа, за това ще трябва да прочетете статията.

Обикновено те се опитват да използват ключови думи в заглавието на страницата, в някои вътрешни заглавия, както и равномерно и възможно най-естествено да ги разпределят в цялата статия. Да, разбира се, може да се използва и подчертаване на клавиши в текста, но не забравяйте за повторната оптимизация, която може да последва.

Плътността на появата на ключове в текста също е важна, но сега това по-скоро не е желан фактор, а, напротив, предупредителен - не можете да прекалявате.

Стойността на плътността на срещане на ключови думи в документа се определя доста просто. Всъщност това е честотата на използването му в текста, която се определя чрез разделяне на броя на срещата му в документа на дължината на документа с думи. Преди това позицията на сайта по въпроса пряко зависи от това.

Но вероятно разбирате, че няма да е възможно да се състави целият материал само от клавишите, защото няма да се чете, но слава Богу, това не е необходимо. Защо питаш? Да, защото има ограничение за честотата на използване на ключова дума в текста, след което уместността на документ за заявка, съдържаща тази ключова дума, вече няма да се увеличава.

Тези. ще ни е достатъчно да постигнем определена честота и по този начин я оптимизираме доколкото е възможно. Или прекаляваме и попадаме под филтъра.

Остава да се решат два въпроса (и може би три): каква е максималната плътност на появата на ключовата дума, след което вече е опасно да я увеличите, както и да разберете.

Факт е, че ключовите думи, подчертани с етикети за акцент и затворени в тага TITLE, имат по-голяма тежест за търсенето, отколкото подобни ключови думи, които просто се срещат в текста. Но последните временауеб администраторите започнаха да използват това и напълно спамиха този фактор, във връзка с което неговата важност е намаляла и дори може да доведе до забрана на целия сайт поради злоупотреба със силни лица.

Но ключовете в TITLE са все още актуални, по-добре е да не ги повтаряте там и да не се опитвате да ги натискате твърде много в заглавието на една страница. Ако ключовите думи са в ЗАГЛАВИЕТО, тогава можем значително да намалим броя им в статията (и следователно да я направим лесна за четене и по-подходяща за хората, а не за търсачките), като постигнахме същата уместност, но без риск от попадане под филтъра.

Мисля, че всичко е ясно с този въпрос - колкото повече клавиши са затворени в етикети за акцент и TITLE, толкова повече са шансовете да загубите всичко наведнъж. Но ако изобщо не ги използвате, тогава и вие няма да постигнете нищо. Най-важният критерий е естествеността на въвеждането на ключови думи в текста. Ако са, но читателят не се спъва за тях, тогава като цяло всичко е наред.

Сега остава да разберем каква честота на използване на ключова дума в документ е оптимална, което ви позволява да направите страницата възможно най-подходяща, без да налагате санкции. Нека първо си спомним формулата, която повечето (вероятно всички) търсачки използват за класиране.

Как да определим приемливата честота на използване на ключ

Вече говорихме за математически моделв статията, спомената по-горе. Същността му за тази конкретна заявка за търсене се изразява с една опростена формула: TF*IDF. Където TF е директната честота на поява на тази заявка в текста на документа (честотата, с която думите се срещат в него).

IDF - обратната честота на поява (рядкост) на тази заявка във всички други интернет документи, индексирани от тази търсачка (в колекцията).

Тази формула ви позволява да определите съответствието (уместността) на документ към заявка за търсене. Колкото по-висока е стойността на продукта TF*IDF, толкова по-подходящ ще бъде този документ и толкова по-висока ще бъде, при равни други условия.

Тези. оказва се, че тежестта на документа за дадена заявка (неговата кореспонденция) ще бъде толкова по-голяма, колкото по-често се използват ключовете от тази заявка в текста и толкова по-рядко тези ключове се намират в други интернет документи.

Ясно е, че не можем да повлияем на IDF, освен като изберем друга заявка, за която ще оптимизираме. Но ние можем и ще повлияем на TF, защото искаме да грабнем нашия дял (и не малък) от трафика от резултатите от търсенето на Yandex и Google по въпросите на потребителите, от които се нуждаем.

Но факт е, че алгоритмите за търсене изчисляват стойността на TF, използвайки доста сложна формула, която отчита нарастването на честотата на използване на ключовата дума в текста само до определен лимит, след което растежът на TF практически спира, въпреки фактът, че ще увеличите честотата. Това е един вид анти-спам филтър.

Преди сравнително много време (до около 2005 г.) стойността на TF беше изчислена с помощта на доста проста формула и всъщност беше равна на плътността на срещане на ключовата дума. Резултатите от изчисляването на уместността с помощта на тази формула не се харесаха точно на търсачките, тъй като те поддадоха на спамърите.

След това формулата на TF стана по-сложна, появи се нещо като гадене на страница и започна да зависи не само от честотата на срещане, но и от честотата на използване на други думи в същия текст. И оптималната стойност на TF би могла да се постигне, ако ключът се окаже най-често използваната дума.

Също така беше възможно да се увеличи стойността на TF чрез увеличаване на размера на текста, като се запази процентът на срещане. Колкото по-голяма е кърпата с артикула със същия процент ключове, толкова по-висок ще бъде този документ.

Сега формулата на TF стана още по-сложна, но в същото време сега не е необходимо да довеждаме плътността до точката, в която текстът става нечетлив и търсачките ще наложатзабрана на нашия проект за спам. И сега няма нужда да пишете и непропорционално дълги листове.

При запазване на същата идеална плътност (ще я дефинираме малко по-ниско от съответната графика), увеличаването на размера на думата на статия само ще подобри позицията й в SERP, докато достигне определена дължина. След като имате идеалната дължина, допълнителното й увеличаване няма да повлияе на уместността (по-точно ще бъде, но много, много малко).

Всичко това може да се види ясно, ако изградите графика на базата на този труден TF (честота на директно влизане). Ако в едната скала на тази графика има TF, а в другата скала - процентът на честотата на срещане на ключовата дума в текста, тогава в резултат ще получим така наречената хипербола:

Графикът, разбира се, е приблизителен, защото малко хора знаят истинската TF формула, използвана от Yandex или Google. Но качествено може да се определи оптимален диапазонкъдето трябва да бъде честотата. Това е около 2-3 процента от общ бройдуми.

Ако вземете предвид, че все пак ще включите някои от ключовете в етикетите за акцент и заглавката TITLE, тогава това ще бъде границата, след която по-нататъшното увеличаване на плътността може да бъде изпълнено с забрана. Вече не е изгодно да насищате и обезобразявате текста с голям брой ключови думи, защото ще има повече минуси, отколкото плюсове.

Каква е дължината на текста, ще е достатъчна за популяризиране

Въз основа на същия предполагаем TF, може да се начертае неговата стойност спрямо дължината на думата. В този случай можете да вземете честотата на ключовите думи постоянна за произволна дължина и равна например на всяка стойност от оптималния диапазон (от 2 до 3 процента).

Забележително е, че ще получим графика с точно същата форма като тази, обсъдена по-горе, само дължината на текста в хиляди думи ще бъде коригирана по абсцисата. И от него ще може да се направи извод за оптимален диапазон на дължината, при което вече е достигната почти максималната стойност на TF.

В резултат на това се оказва, че ще лежи в диапазона от 1000 до 2000 думи. При по-нататъшно увеличение релевантността практически няма да нарасне, а с по-къса дължина ще падне доста рязко.

Че. можем да заключим, че за да заемат вашите статии високи места в резултатите от търсенето, трябва да използвате ключови думи в текста с честота поне 2-3%. Това е първият и основен извод, който направихме. Е, второто е, че сега изобщо не е необходимо да пишете много обемни статии, за да влезете в Топ.

Ще бъде достатъчно да надминете крайъгълния камък от 1000 - 2000 думи и да включите 2-3% от ключовите думи в него. Това е - това е всичко рецепта за перфектния текст, който ще може да се състезава за място в топ за нискочестотни заявки, дори без използване на външна оптимизация (купуване на връзки към тази статия с котви, които включват ключови думи). Въпреки че, да се поразровя малко Miralinks , GGL, Rotapost или GetGoodLink е добре, тъй като ще помогне на вашия проект.

Нека ви напомня още веднъж, че дължината на текста, който сте написали, както и честотата на използване на определени ключови думи в него, можете да разберете с помощта на специализирани програми или с помощта на онлайн услуги, специализирани в техния анализ. Една от тези услуги е ISTIO, за работата, с която говорих.

Всичко, което казах по-горе, не е сто процента достоверно, но много прилича на истината. Както и да е, мой личен опитпотвърждава тази теория. Но алгоритмите на Yandex и Google непрекъснато претърпяват промени и малко хора знаят как ще бъде утре, освен тези, които са близо до тяхното развитие или разработчици.

Късмет! До скоро на сайта на блог страниците

Може да се интересувате

Вътрешна оптимизация - избор на ключови думи, проверка на гадене, оптимално заглавие, дублиране на съдържание и повторно свързване при ниски честоти
Ключови думи в текст и заглавия
Как ключовите думи влияят на популяризирането на уебсайта в търсачките
Онлайн услугиза уеб администратори - всичко необходимо за писане на статии, техни Оптимизация за търсачкии анализ на неговия успех
Начини за оптимизиране на съдържанието и отчитане на темата на сайта по време на популяризиране на връзки, за да се сведат до минимум разходите
Yandex Wordstat и семантичното ядро ​​- избор на ключови думи за сайта с помощта на статистика от онлайн услугата Wordstat.Yandex.ru
Anchor – какво е това и колко са важни в промоцията на уебсайта
Кои фактори за оптимизация за търсачки влияят на популяризирането на уебсайта и до каква степен
Промоция, популяризиране и оптимизиране на сайта самостоятелно
Отчитане на морфологията на езика и други проблеми, решавани от търсачките, както и разликата между HF, MF и LF заявки
Доверието на уебсайтове – какво е, как да го измерим в XTools, какво го влияе и как да повишите авторитета на вашия сайт

Честота на използване

съществително, брой синоними: 1

обикновеност (10)


  • - Речник, чиято употреба е ограничена в силата на всяка. екстралингвистични причини. Към L.o.u. включват: диалектизми, термини и професионализми, жаргон, разговорни думи и изрази, вулгаризми...

    Речник на социолингвистични термини

  • Обща лингвистика. Социолингвистика: Речник-справочник

  • - превод на немския термин Gebrauchstypen, въведен от Делбрюк за обозначаване на установените употреби на граматически форми. Към T. pack. включват например различни видовесинтактична употреба...

    енциклопедичен речникБрокхаус и Ефрон

  • - Речник, чието използване е ограничено от екстралингвистични причини: 1) диалектизми, ограничени териториално; 2) термини, използвани в научен стил...
  • Речник на езиковите термини T.V. Жребче

  • Речник на езиковите термини T.V. Жребче

  • - Употреби, които забраняват използването на разликите на един обект от друг: Живите организми не могат да съществуват без ...
  • - Употреби, свързани с конкретни представители на този клас обекти: Трябва да видя този човек ...

    Термини и понятия от обща морфология: Речник-справочник

  • - 1) Опции, предвидени от правилата за проектиране на комплекс безсъюзни предложения: при обясняване или мотивиране вместо двоеточие може да се използва тире: Раздялата е илюзорна - скоро ще бъдем заедно...

    Синтаксис: речник

  • - наречие, брой синоними: 1 под бушел...

    Синонимен речник

  • - прил., брой синоними: 10, които влязоха в обращение, остаряха, не отговаряха на съвременните изисквания, остаряха, остаряха, оттеглиха се в царството на легендата ...

    Синонимен речник

  • - См....

    Синонимен речник

  • - прил., брой синоними: 19 анахронична архаична архаична остаряла остаряла остаряла остаряла остаряла пенсионирана в региона ...

    Синонимен речник

  • - прил., брой синоними: 2 неизползваеми необичайни ...

    Синонимен речник

  • - прил., брой синоними: 3

    Синонимен речник

  • - 1) Варианти, предвидени от правилата за проектиране на сложни несъединителни изречения: за обяснение или мотивация може да се използва тире вместо двоеточие: Раздялата е илюзорна - скоро ще бъдем заедно 2) Когато се разделим ...

    Речник на езиковите термини T.V. Жребче

"честота на използване" в книгите

Честота на хранене

от Хармар Хилъри

Честота на хранене

от Хармар Хилъри

Честота на хранене Броят пъти, когато едно кученце трябва да бъде хранено на ден, зависи от размера на породата. Повечето кученца се справят добре, когато се хранят на всеки три часа ден и нощ, но ако се родят преждевременно или тежат по-малко от 85 g при раждането, има вероятност да умрат.

Честота на хранене

От книгата Развъждане на кучета от Хармар Хилъри

Честота на хранене Броят пъти, когато едно кученце трябва да бъде хранено на ден, зависи от размера на породата. Повечето кученца се справят добре, когато се хранят на всеки три часа ден и нощ, но ако се родят преждевременно или тежат по-малко от 85 g при раждането, има вероятност да умрат.

Честота на хранене

От книгата Кучета и тяхното отглеждане [Развъдни кучета] от Хармар Хилъри

Честота на хранене Броят пъти, когато едно кученце трябва да бъде хранено на ден, зависи от размера на породата. Повечето кученца се справят добре, когато се хранят на всеки три часа ден и нощ, но ако се родят преждевременно или тежат по-малко от 85 g при раждането, има вероятност да умрат.

Честота

От книгата Недвижими имоти. Как да го рекламирам автор Александър Назайкин

14.2.3. Честота на взаимодействие

от Димитри Никола

14.2.3. Честота на взаимодействие Колкото по-често взаимодействат една и съща група конкуренти, толкова по-устойчиво става тайното споразумение, тъй като нарушенията се наказват по-бързо. Ако, например, фирмите се конкурират по-рядко, тогава способността им да поддържат тайни споразумения е по-ниска.

15.4.6. Честота на търговете

От книгата Ръководство за покупки от Димитри Никола

15.4.6. Честота на търговете Както беше обсъдено по-горе, някои аукционни кръгове могат да прехвърлят средства помежду си след търга, за който са се съгласили, или да водят записи на дължимите суми и то само от време на време.

8. Честотата на използване на функционални думи се оказва инвариант на автора

От книгата Книга 2. Смяна на дати – всичко се променя. [Нова хронология на Гърция и Библията. Математиката разкрива измамата на средновековните хронолози] автор Фоменко Анатолий Тимофеевич

8. Честотата на използване на функционални думи се оказва инвариант на автора.Забележително изключение е нашият параметър 3 - честотата на използване на всички функционални думи - ПРЕДЛОГИ, СЪЕДИНИ И ЧАСТИЦИ. Показано е развитието на този параметър в зависимост от нарастването на размера на извадката

Честота

От книгата Голям Съветска енциклопедия(NA) автор TSB

Честота

автор Александър Назайкин

Честота

От книгата Медийно планиране за 100 автор Александър Назайкин

Честотните телевизионни канали се излъчват на VHF и UHF честоти. Измервателните ленти бяха първите, които бяха овладени по телевизията. През 90-те години на XX век дециметровите канали бяха активно пуснати в Москва. Преди това честотата беше от голямо значение, тъй като за приемане на различни канали

Честота

От книгата Медийно планиране за 100 автор Александър Назайкин

Честота Качеството на сигнала зависи от честотата на предаване на сигнала. В по-голяма степен се предоставя във VHF лентите (ЧМ с честотна модулация). Слушателите предпочитат доброто звучене, така че УКВ станциите имат значителен рейтинг на аудиторията и са предпочитани

3.2. Честота

автор Иванов Дмитрий Олегович

3.2. Честота Когато се обсъжда значението на всяка патология в медицината, според нас е важно да се говори не само за етиологията, патогенезата, клиниката и тежестта на нараняванията и усложненията, които са възникнали или могат да възникнат, но и за разпространението на тази патология. . Да се

4.2. Честота

От книгата Нарушения топлинен баланспри новородени автор Иванов Дмитрий Олегович

4.2. Честота Хипертермията при новородени вероятно е много по-рядка от хипотермията. Това вероятно е свързано с факта, че в научната литература има много малко работи, посветени на хипертермията при кърмачета. Maayan-Metzger A. et al. (2003) анализира 42313 истории на заболяването

Честота

От книгата Метаболизъм на глюкозата при новородени автор Иванов Дмитрий Олегович

Честота Корблант М., който дефинира хипогликемията като концентрация на глюкоза в кръвта под 30 mg% (1,67 mmol/l) през първите 72 часа от живота, я открива при 4,4% от всички живородени. През 1971 г. Lubchenco L. O. и Bard Н., използвайки критериите на Korblant M., разкрива хипогликемия при новородени с по-голяма

Речникът включва най-често използваните думи на съвременния руски език (2-ра половина на 20-ти - началото на 21-ви век), снабдени с информация за честотата на употреба, статистическото разпределение по текстове и жанрове и към момента на създаване на текстовете. Речникът е базиран на текстовете на Националния корпус на руския език с обем от 100 милиона думи. Повече информация за историята на честотните речници на руския език и методите за създаване на "Нов честотен речник на руския речник" на речника можете да намерите в.

Разработването на концепцията на речника и подготовката му за публикуване са извършени от O.N.Lyashevskaya и S.A.Sharov, електронна версияподготвен от А. В. Санников. Авторите са благодарни на В. А. Плунгян, А. Я. Шайкевич, Е. А. Гришина, Б. П. Кобрицов, Е. В. Рахилина, С. О. Савчук, Д. В. Сичинава и други участници, които взеха участие в обсъждането на принципите на създаване на речник. Благодарим на О. Урюпина, Д. и Г. Бронникови, Б. Кобрицов, както и на служителите на Yandex LLC А. Аброскин, Н. Григориев, А. Сокирко за помощта им на различни етапи на събиране на данни и компютърна обработка.

Как да намеря дума в речника?

Двата основни раздела на речника са списък с думи, подредени по азбучен ред и по обща честота на използване в корпуса. Всички думи са дадени в тяхната оригинална (начална) форма: за имена това е форма на именителен падеж (за съществителни, като правило, форма за единствено число, за прилагателни - пълната форма мъжки пол), за глаголите - инфинитивната форма.

Азбучният списък съдържа 60 хиляди от най-често срещаните словоформи. За да намерите информация за желаната дума, отидете в секцията, изберете първата буква на думата и намерете думата, която търсите в таблицата. За бързо намиране на дума можете да използвате и полето за търсене, например:

дума: ярък

По този начин можете да намерите информация не само за конкретна дума, но и за група думи, които започват или завършват по същия начин. За да направите това, в полето за търсене използвайте звездичка (*) след въведената последователност от букви („всички думи, започващи с...“) или преди низ от букви („всички думи, завършващи с...“. За например, ако искате да намерите всички думи, започващи с повторно, въведете в полето за търсене:

дума: re*

Ако искате да намерите всички думи, завършващи с - enko, въведете в полето за търсене:

дума: *nko

В списъка на честотата на лемите думите са подредени по общата честота на употреба в корпуса на съвременния руски език литературен език. Списъкът с честоти включва 20 000 от най-често срещаните леми.

За да намерите информация за желаната дума, отидете в секцията и намерете думата, която търсите в таблицата. За да търсите информация за отделни думи, най-добре е да използвате прозореца за бързо търсене на думи.

Защо не мога да намеря думата в речника, въпреки че мога да я намеря в корпуса?

Това може да се дължи на няколко причини. Първо, думата може да има ниска честота (например само 3 поява в корпуса) или да се използва само в текстове, написани преди 1950 г. На второ място, една дума може да се среща много пъти, но в един или два текста: такива леми бяха умишлено изключени от речника на речника. На трето място, не можем да изключим, че е имало грешка при автоматичното определяне на оригиналната форма или характеристиките на част от речта на думата, или думата е била погрешно приписана като собствено име. Сайтът представя "тестова" версия на честотния речник, като ние ще продължим да прецизираме неговия лексикален състав.

Каква информация за употребата на думата може да се получи?

В речника можете да получите следната информация за употребата на думата в корпуса:

  • общ брой поява на лемата (обща честота в единици ipm), вижте раздели, честотни речници измислицаи други функционални стилове; честотни речници на съществителни, глаголи и други части на речта
  • честотния ранг на думата (тоест поредния номер в общия честотен списък), вижте раздели, честотни речници на съществителни, глаголи и други части на речта.
  • броят на текстовете, в които се е появила думата (брой документи), вижте раздел ;
  • коефициент на вариация D, вижте раздели и честотни речници на съществителни, глаголи и други части на речта
  • разпространение на употребата на думата в текстове, създадени през различни десетилетия (1950-те, 1960-те и т.н.), виж раздела;
  • обща честота на използване на отделни словоформи, вижте раздел Азбучен списък на словоформите.

    В речници със значителен речник може да се получи и информация за сравнителната честота на дадена дума в общия корпус и в подкорпуса на текстове от определен функционален стил (художествена литература, публицистика и др.) и индикатора за вероятност LL-резултат.

    В допълнение към количествените показатели, частта на речта се обозначава с думата. Това се прави с цел разпространяване на думи различни частиречи, които имат същата оригинална форма (вж. печем -съществително и глагол).

    Какво е ipm?

    Общата честота характеризира броя на употребите на милион думи от корпуса или ipm (екземпляри на милион думи). Това е общоприета в световната практика мерна единица за честота, която опростява сравнението на честотата на дадена дума в различни честотни речници и в различни корпуси. Факт е, че извадките от текстове, на които се измерва честотата, могат да се различават доста по размер. Например, ако думата мощностсе среща 55 пъти в корпус от 400 хиляди думи, 364 пъти в корпус от милион и 40598 пъти в корпус от 100 милиона на съвременния руски език и 55673 пъти в голям 135 милиона корпус на NKRYA, тогава честотата му в ipm ще бъде 137,5 , 364.0, 372.06 и 412.39, съответно.

    Честотни речници, изд. Л.Н. Zasorina и L. Lenngren са изградени на базата на размер на извадката от един милион думи, съответно, можем да предположим, че абсолютните показатели, които се появяват там, също са дадени в ipm.

    Какъв е коефициентът на вариация D?

    Коефициентът D, въведен от A. Juiland (Juilland et al. 1970), се използва в много честотни речници (Руски речник на L. Lenngren, речник British National Corpus, френски бизнес речник). Този коефициент ви позволява да видите колко равномерно е разпределена думата в различни текстове.

    Стойността на коефициента се определя в диапазона от 0 до 100. Например думата исреща се в почти всички текстове от корпуса, а стойността му D е близка до 100. Думата комисуротомиясреща се 5 пъти в корпуса, но само в един текст; има D стойност около 0.

    Посочването на коефициента D за всяка дума дава възможност да се прецени доколко е специфичен за отделните предметни области. Например думи презряли имплантимат приблизително еднаква честота (0,56 ipm), но коефициентът D y презрялсе равнява 90, а при импланта 0. Това означава, че първата дума се среща равномерно в текстове с различни посоки и е значима за голям брой предметни области, докато думата имплантприсъства само в няколко текста на тема „медицина и здраве”.

    Какво можете да научите за историята на употребата на думата в различни периоди?

    Информация за разпределението на честотата на думите през различните десетилетия на 2-ра половина на 20-ти век и в началото на 21-ви век може да се получи от. Например, може да се види как съдбата на думата перестройка:

    Резкият скок в използването му през 80-те години на миналия век може да бъде напълно обяснен със социално-историческите реалности от онова време; в същото време от езикова гледна точка този факт може да се тълкува по следния начин: думата перестройкаобогатен с ново значение, което става доминиращо през следващите години.

    Защо собствените имена и съкращенията са подчертани в отделен списък?

    Собствените имена са отделени от основната част на речника, тъй като образуват група, която е много по-малко статистически стабилна, а честотата им до голяма степен зависи от избора на текстове в корпуса и от тяхната тема (в частност от мястото и времето). от описаните събития). В Lengren 1993 се изразява мнението, че включването на собствени имена в честотен речник на обща основа неизбежно води до неговото преждевременно остаряване.

    Речникът включва ядрената част на този списък, наброяващ 3000 от най-често срещаните единици. За да търсите данни за използването на имена, бащини, фамилни имена, прякори, прякори, топоними, имена на организации и съкращения, отидете в раздела Азбучен списък на собствените имена и съкращения, изберете буквата, която започва с думата, която търсите и го намерете в таблицата. Можете също да използвате полето за бързо търсене на думи.

    Как да получите информация за употребата на отделни форми на дума?

    В допълнение към информацията за използването на лемата (тоест думата във всички форми на флексия), в речника можете да разберете как се използват отделните словоформи. Отидете в раздела Азбучен списък на словоформите, изберете буквата, с която започва словоформата, и я намерете в таблицата. Можете също да използвате полето за бързо търсене, например:

    словоформа: летя

    За да намерите всички словоформи, които започват (или завършват) с определена последователност от букви, използвайте знака звездичка (*) в полето за търсене. Например, всички словоформи, започващи с приспива, може да бъде намерен, като напишете:

    словоформа: сън*

    Всички словоформи, завършващи на ¬ –com, може да бъде намерен, като напишете:

    словоформа: *com

    Азбучният списък на словоформите включва всички словоформи от корпуса с честота над 0,1 ipm (общо около 15 хиляди) и съдържа информация за общата им честота. Омонимните словоформи са маркирани със * в таблицата.

    Как да намерите информация за "най-често срещаните" думи?

    С помощта на нашия речник можете да намерите информация за класове думи, които се различават по общи статистически характеристики. Това са по-специално:

  • най-често срещаните думи в общата извадка от корпуса; думи със средна честота за общата извадка и т.н. (вижте раздел);
  • думи, които се срещат най-често в подкорпуса на художествената литература (вижте раздел Честотен речник на художествената литература);
  • думите, които се срещат най-често в подкорпуса на журналистиката (вижте раздела Честотен речник на журналистиката);
  • думи, които най-често се срещат в подкорпуса на друга нехудожествена литература (вижте раздел Честотен речник на друга нехудожествена литература);
  • думи, които са най-характерни за устната реч (вижте раздела Честотен речник на живата реч).
  • най-често срещаните съществителни (вижте раздел Списък на честотата на съществителните);
  • най-често срещаните глаголи (вижте раздела Често срещани глаголи);

    и други честотни списъци на класове за частична реч.

    В допълнение към предложените класове, можете самостоятелно да изследвате други групи от думи, като използвате таблицата „Общи“ в секцията на Азбучния списък на словоформите. азбучен списък» (например, можете да изследвате най-често срещаните глаголи с префикса повторно, думи, намерени в повече от 200 текста, и много повече: принципите на групиране на класове зависят от вашите задачи и от вашето въображение).

    Как да проследим разпределението на честотата в текстове от различни функционални стилове?

    Честотният речник на Л. Н. Засорина дава данни за употребата на думата в четири типа текстове: (I) текстове от вестници и списания, (II) драматургия, (III) научни и публицистични текстове, (IV) художествена литература. В нашия речник можете да получите подобна информация, като използвате раздела „Разпределение на лемите по функционални стилове“.

    Честотните речници на функционалните стилове са съставени на базата на подкорпуси на художествена литература, публицистика, друга нехудожествена литература и оживена устна реч. В сравнение с речника на Л. Н. Засорина, съставът на заглавията е донякъде променен: вместо драматургия се използват записи на жива устна реч и преписи от филмови саундтраци, научната литература е подчертана в отделна рубрика, заедно с официалния бизнес, църковна и друга нехудожествена литература.

    Списъкът включва 5000 най-често срещани леми от тези подкорпуси. За всяка лема са посочени частта на речта, честотата в подкорпуса и коефициентът D.

    Какво е смислен речник (художествена литература и т.н.)?

    Има думи, които се използват много по-често в един от функционалните стилове, отколкото в други. Например за жива устна реч такива думи са тук като цялои ДОБРЕ.Наистина е трудно да се предположи, че в научната и техническата литература тези думи се използват толкова често, колкото и в ежедневния език.

    Списъкът с най-типичните леми за всеки функционален тип текстове е избран въз основа на сравнение на честотата на лемите в този подкорпус от текстове и в останалата част от корпуса. Речниците на смислена лексика включват по 500 леми.

    Какво означават frq1, frq2 и LL-резултат в смисления речник?

    Frq1 е общата честота на лемата в целия корпус (в единици ipm), frq2 е честотата на лемата в дадения подкорпус (подкорпусът на художествената литература, публицистиката, друга нехудожествена литература и оживената реч съответно), LL -score е коефициентът на вероятност, изчислен въз основа на frq1 и frq2 по формулата, предложена от P. Rayson и A. Garside (вижте въведението в речника за повече подробности). Колкото по-висок е LL-резултатът, толкова по-значима е думата за даден функционален стил.

    Как да получите списък със 100-те най-често срещани глагола?

    в глава " Общ речник: Parts of Speech” честотният списък на лемите е разделен на седем подсписъка: съществителни, глаголи, прилагателни, наречия и сказуеми, местоимения, числителни и спомагателни части на речта. Тук за всяка лема са посочени нейната обща честота и ранг (сериен номер). общ списък. Всеки списък съдържа 1000 най-често срещани леми.

    По този начин можете да получите списък със 100-те най-често срещани глагола, като отидете в подраздела Списък на честотата на глаголите и изберете първите 100 глагола в горната част на списъка. По същия начин можете да разберете кое прилагателно е най-често срещано (както е посочено в секцията Списък на честотата на имената на прилагателните, това е прилагателно нов) и разберете много други интересни фактиотносно състава на часовете по частна реч.

    Как да използваме помощни маси?

    Помощните таблици включват, първо, данни за честотата на класовете на част от речта, както и други граматически категории. Тези данни са получени на базата на подкорпуса NCRL с отстранена лексико-граматична неяснота (ръчно) (размерът е повече от 6 милиона думи). Тъй като статистическите данни засягат големи класове думи, има основание да се смята, че съотношението на частите на речта и другите граматически категории ще бъде еднакво в целия корпус.

    Второ, този раздел предоставя информация за покритието на текста с лексеми, средната дължина на думата, словоформата и изречението.

    На трето място, тук са списъци с честота на използването на букви от руската азбука, препинателни знаци, както и двубуквени и многобуквени комбинации.