Фота: «Наша Ніва»

Фота: «Наша Ніва»

Беларускі N-корпус нечакана спыніў сваю працу ў ліпені 2023 года. На адпаведнай старонцы было размешчана паведамленне пра тое, што ў распрацоўшчыкаў «узніклі праблемы з корпусам»:

«На жаль, атрымалася так, што мы не можам яго падтрымліваць далей з розных прычын. Рухавік корпуса застаецца пад вольнай ліцэнзіяй. Астатнія праекты будуць працягвацца як і раней».

Больш дакладных тлумачэнняў не было ні на самім сайце, ні ў сацсетках, захоўвалі публічнае маўчанне і мовазнаўцы-стваральнікі Корпуса.

Як стала пасля вядома, афіцыйнай прычынай была названая «недастатковая магутнасць сервераў». Але, відаць, адной гэтай прычынай спыненне працы не абмяжоўваецца.

Корпус складаўся з некалькіх падкорпусаў: асноўнага, неразабраных тэкстаў, газет і сайтаў, беларускіх Вікіпедый абодвух правапісаў. Такім чынам Корпус уключаў велізарную колькасць сучасных тэкстаў на беларускай мове, у тым ліку публікацыі беларускамоўных СМІ, прадукцыя большасці з якіх была прызнаная рэжымам Лукашэнкі «экстрэмісцкімі» матэрыяламі. Менавіта падкорпус газет і сайтаў першым знік з выдачы яшчэ да поўнага адключэння Корпуса. 

Няспыннае пашырэнне «забароненай» прадукцыі працягвала значна скарачаць кола сучасных тэкстаў на беларускай мове, якія можа выкарыстоўваць у Корпусе, а канвеернасць прызнання ўсяго «экстрэмісцкім», рабіла немагчымым пастаяннае адсочванне і ўнясенне адпаведных зменаў у велізарную базу. 

Крамольную для рэжыму па сэнсе і падачы інфармацыю маглі змяшчаць і тэксты без «экстрэмісцкага» статусу. Цэнзураванне зместу тэкстаў не з’яўляецца задачай Корпуса і супярэчыць яго сутнасці, фізічна і тэхнічна немагчыма выявіць небяспечныя фрагменты ў мільярдзе словаўжыванняў. 

У такім разе спыненне працы Корпуса з меркаванняў уласнай бяспекі выглядае цалкам лагічным.

Статыстыка Корпуса беларускай мовы ў пачатку 2023 года і ў пачатку 2024 года. 

Статыстыка Корпуса беларускай мовы ў пачатку 2023 года і ў пачатку 2024 года. 

Праца Корпуса была адноўлена 19 студзеня, але ў моцна скарочаным выглядзе. Калі ў пачатку 2023 года агулам корпус налічаў каля 1 млрд слоў, то сёння засталося толькі 124 млн, або 12%. 

З аднаго боку, гэта добра кладзецца ў афіцыйную версію пра магутнасці сервераў. Але ў адноўленым Корпусе не проста скараціліся, а цалкам зніклі цэлыя падкорпусы: Корпус неапрацаваных тэкстаў (907 млн слоў), які ўключаў тэксты з сайтаў kamunikat.org (465 млн слоў) і knihi.com (432 млн слоў), канкарданс беларускай мовы XIX ст., які ўключаў практычна ўсе захаваныя творы мастацкай літаратуры, напісаныя ў названы перыяд на беларускай мове (287 тыс. слоў), і корпус абедзвюх беларускіх Вікіпедый (124 млн слоў).

Дунін-Марцінкевіч, Сыракомля і Багушэвіч, у чыіх творах шукаюць экстрэмізм прарасійскія актывісты. Фота: Wikimedia Commons

Дунін-Марцінкевіч, Сыракомля і Багушэвіч, у чыіх творах шукаюць экстрэмізм прарасійскія актывісты. Фота: Wikimedia Commons

Гэтыя змены лёгка патлумачыць: Вікіпедыя застаецца свабодным і непадцэнзурным рэсурсам, канкарданс XIX ст. змяшчае антырасійскія творы Дуніна-Марцінкевіча, Багушэвіча, Каратынскага і іншых дзеячаў, якія або прызнаныя экстрэмісцкімі, або з’яўляюцца аб’ектам нападкаў прарасійскіх блогераў, а сайт kamunikat.org заблакаваны па рашэнні Міністэрства інфармацыі.

Небагаты выбар ідэалагічна правільных дзяржаўных вэб-рэсурсаў, на якіх ёсць хоць нешта па-беларуску

Небагаты выбар ідэалагічна правільных дзяржаўных вэб-рэсурсаў, на якіх ёсць хоць нешта па-беларуску

Адроджаны корпус вэб-рэсурсаў сёння ўключае толькі сайты дзяржаўных «БелТА», газеты «Звязда», Белтэлерадыёкампаніі і афіцыйны сайт Лукашэнкі, цалкам ігнаруючы велізарны і разнастайны масіў тэкстаў, які дзесяцігоддзямі ствараўся незалежнымі медыя. Агулам атрымалася 106 млн слоў — кропля на месцы колішняга мора.

Магчыма, корпус яшчэ будзе дапоўнены іншымі матэрыяламі, але многія туды ўжо не вернуцца праз ідэалогію сённяшняга беларускага рэжыму. 

Чытайце таксама:

Каго з беларускіх літаратараў Бондарава адменіць у 2024 годзе

«Фактычна мы павінны падзякаваць за гэтыя знаходкі». Расійскі імперскі гісторык апублікаваў невядомыя лісты Кастуся Каліноўскага, якія яго вобразу ніяк не шкодзяць

Прызналі «экстрэмісцкім» двухтомны збор твораў Дуніна-Марцінкевіча. Ён выйшаў у дзяржаўным выдавецтве

Клас
0
Панылы сорам
7
Ха-ха
1
Ого
0
Сумна
11
Абуральна
32

Хочаш падзяліцца важнай інфармацыяй ананімна і канфідэнцыйна?