Языки Российской Федерации — языки, распространённые на территории России. Они относятся к 14 языковым семьям — индоевропейской, алтайской, уральской, юкагиро-чуванской, картвельской, абхазо-адыгской, нахско-дагестанской, сино-тибетской, семитской, эскимосско-алеутской, чукотско-камчатской, енисейской, австроазиатской, айнской; нивхский язык является изолированным. Большая часть населения России говорит на языках четырёх языковых семей: индоевропейской (89 %), алтайской (7 %), кавказской (2 %) и уральской (2 %)[2].
В работе[3] в таблице 1 перечислены 32 языка России, обладающие собственными корпусами, снабжёнными поисковыми системами. Из них для пяти языков текстовые ресурсы доступны по открытой лицензии Creative Commons, для 22 языков лицензия неизвестна[3].
Корпуса текстов:
Самыми крупными корпусами, включающими более миллиона токенов, являются аварский (2.3 млн), адыгейский (7.8 млн), башкирский (20.6 млн), бурятский (2.2 млн), чувашский (1.1 млн), эрзянский (3.1 млн), коми-зырянский (54 млн), осетинский (12 млн), татарский (180 млн), удмуртский (7 млн), идиш (4.9 млн). Из этих крупных корпусов только про корпус эрзянского языка известно, какую он имеет лицензию (CC BY 4.0), у остальных корпусов лицензия неизвестна[3].
Число носителей языка:
В списке ниже после каждого языка указана численность говорящих в России: либо по переписи 2010, либо (если данные переписи считаются недостоверными) по оценке лингвистов (2002 год). В последнем случае перед ними стоит значок тильды (~).
Языки Российской Федерации — языки, распространённые на территории России. Они относятся к 14 языковым семьям — индоевропейской, алтайской, уральской, юкагиро-чуванской, картвельской, абхазо-адыгской, нахско-дагестанской, сино-тибетской, семитской, эскимосско-алеутской, чукотско-камчатской, енисейской, австроазиатской, айнской; нивхский язык является изолированным. Большая часть населения России говорит на языках четырёх языковых семей: индоевропейской (89 %), алтайской (7 %), кавказской (2 %) и уральской (2 %)[2].
В работе[3] в таблице 1 перечислены 32 языка России, обладающие собственными корпусами, снабжёнными поисковыми системами. Из них для пяти языков текстовые ресурсы доступны по открытой лицензии Creative Commons, для 22 языков лицензия неизвестна[3].
Корпуса текстов:
Самыми крупными корпусами, включающими более миллиона токенов, являются аварский (2.3 млн), адыгейский (7.8 млн), башкирский (20.6 млн), бурятский (2.2 млн), чувашский (1.1 млн), эрзянский (3.1 млн), коми-зырянский (54 млн), осетинский (12 млн), татарский (180 млн), удмуртский (7 млн), идиш (4.9 млн). Из этих крупных корпусов только про корпус эрзянского языка известно, какую он имеет лицензию (CC BY 4.0), у остальных корпусов лицензия неизвестна[3].
Число носителей языка:
В списке ниже после каждого языка указана численность говорящих в России: либо по переписи 2010, либо (если данные переписи считаются недостоверными) по оценке лингвистов (2002 год). В последнем случае перед ними стоит значок тильды (~).
Объяснение: