Ці разумее штучны інтэлект (ШІ) беларускую мову? Чаму часам ён адказвае «Жыве!» і дадае чырвона-зялёны сцяжок? Ці адрозніваюць мадэлі «наркамаўку» і тарашкевіцу? І чаму часам ШІ жартуе, як падлетак? Пра гэта MOST пагаварыў з Аляксеем Картыннікам — айцішнікам, які вядзе YouTube-канал «АйТиБорода» і новы сумесны падкаст «Каласы пад сярпом ШІ».
Як з’явіўся падкаст пра ШІ па-беларуску
«Каласы пад сярпом ШІ» — беларускамоўны падкаст пра штучны інтэлект (ШІ), які можна паслухаць на YouTube і Spotify. Яго робяць Аляксей Картыннік, вядоўца курсу «Мова нанова» Эмілія Гаўрус і айцішнік Яўген Яфімаў. Картыннік і Гаўрус жывуць у Польшчы, а Яфімаў — у Нідэрландах.

Ідэя стварыць падкаст з’явілася ў Аляксея год таму. Да гэтага ён ужо рабіў падкаст пра ШІ для айцішнікаў па-руску, але хацеў запусціць такі ж праект па-беларуску.
— Мне вельмі хацелася, каб беларусы маглі пачуць пра навіны штучнага інтэлекту ў падкаст-фармаце і без празмернага ўплыву складанай IT-тэрміналогіі, каб разумелі нашыя мамы і таты, — кажа ён.
«Менавіта Gemini валодае найбольш літаратурнай і чалавечай мовай»
Беларуская мова прадстаўленая ў нейрасетках, напрыклад у ChatGPT ад OpenAI, Claude ад Anthropic і Gemini ад Google.
— Але на мой асабісты густ, менавіта Gemini валодае найбольш літаратурнай і чалавечай мовай. Пры гэтым GPT і Claude таксама спраўляюцца даволі няблага, — кажа Аляксей. — Гаворка не пра прынцыпова розныя ўзроўні, а хутчэй пра нюансы ў гучанні і стылі.
Як ШІ перакладае на беларускую і дзе памыляецца
Пры перакладах з рускай на беларускую сітуацыя падобная: лепш за ўсё, паводле Аляксея, спраўляецца Gemini, але іншыя мадэлі не моцна адстаюць.
— Што тычыцца касякоў: раней мадэлі часта ўжывалі ўкраінскія словы, цяпер такіх памылак усё менш.
Аляксей тлумачыць, што нейрасеткі апрацоўваюць мовы як сістэмы сімвалаў і часцей блытаюць тыя, што блізкія паміж сабой. Таму паміж беларускай, рускай і ўкраінскай памылак больш, а паміж беларускай і польскай — менш.
Ці разумее штучны інтэлект, што такое «наркамаўка» і тарашкевіца
Нейрасеткі навучаліся на розных тэкстах, у тым ліку і на розных правапісах беларускай мовы: тарашкевіцы (моўнай норме, зафіксаванай Браніславам Тарашкевічам) і так званай наркамаўцы (школьным правапісе, рэгуляваным Інстытутам мовазнаўства НАН Беларусі).
— Калі вы папросіце мадэль адказваць на тарашкевіцы, яна будзе намагацца гэта рабіць. Калі вы падасце на ўваход тэкст на тарашкевіцы, мадэль зразумее стыль і, хутчэй за ўсё, адкажа ў тым жа ключы, — кажа Аляксей.
Пры гэтым ён тлумачыць, што праз меншы корпус беларускамоўных тэкстаў мадэлі могуць блытаць нормы.
З трасянкай Аляксей не эксперыментаваў, але, на яго думку, мадэлі, хутчэй за ўсё, будуць схіляцца да нарматыўнай мовы.
— Трасянка не нармаваная, па ёй няма падручнікаў, таму ШІ не ўспрымае яе як асобную сістэму. Мадэль проста адкажа на той мове, якую палічыць найбольш блізкай да вашага запыту, — кажа ён.

Штучны інтэлект разумее каламбуры
Гумар пакуль застаецца слабым месцам штучнага інтэлекту, бо ён базіруецца на чалавечым досведзе, які мы назапашваем цягам усяго жыцця.
— Мадэлі жартуюць прыкладна на ўзроўні падлетка. Складаны сарказм ці тонкія панчлайны (кульмінацыйныя радкі або фразы, якія выклікаюць рэакцыю; найчасцей з нечаканым сэнсам, гульнёй слоў або алюзіяй. — Заўв. MOST) ім пакуль не зусім даступныя, — тлумачыць суразмоўца. — З каламбурамі ШІ спраўляецца лепш: ён можа растлумачыць сутнасць гульні слоў, але сам стварае іх пакуль слаба.
«Жыве Беларусь» — «Жыве!» А сцяг — чырвона-зялёны
Што да культурнага кантэксту, шмат што залежыць ад таго, як навучана мадэль і якой палітыкі прытрымліваецца кампанія-распрацоўшчык.
— Напрыклад, калі напісаць ChatGPT «Жыве Беларусь», ён можа адказаць «Жыве!» і паставіць чырвона-зялёны сцяг. Для мадэлі ў гэтым няма супярэчнасці — яна проста выдае афіцыйны смайл краіны, бо яе трэніруюць быць максімальна нейтральнай для сярэднестатыстычнага карыстальніка, — кажа Аляксей.
Ён дадае, што ў падобных выпадках мадэлі часта не ўлоўліваюць глыбінны культурны сэнс. Напрыклад, фразу пра «агульную млявасць і абыякавасць да жыцця» ўспрымаюць літаральна.
— Яны могуць патлумачыць гэта як апатыю ці нават медыцынскі тэрмін, але культурны глыбінны кантэкст часта застаецца па-за ўвагай.
Як беларусы спрабуюць палепшыць ШІ
Аляксей кажа, што над паляпшэннем беларускай мовы ў ШІ працуюць у асноўным энтузіясты. Напрыклад, супольнасць Belarusian GLUE стварае тэсты і збірае даныя, каб мадэлі лепш разумелі беларускі кантэкст. Без дзяржаўнай падтрымкі гэты працэс ідзе павольней.
— Па маіх назіраннях, за апошні год якасць беларускай мовы ў топавых нейрасетак значна вырасла. Мадэлі становяцца больш магутнымі і навучаюцца на ўсім адкрытым інтэрнэце. І тут мы, як супольнасць, можам паўплываць: чым больш мы ствараем якаснага беларускамоўнага кантэнту — артыкулаў, падкастаў, відэа, — тым лепей мадэлі будуць валодаць нашай мовай у будучыні.
Каротка Аляксей ацэньвае ўзровень так: сёння ШІ размаўляе па-беларуску прыкладна як сярэднестатыстычны чалавек. Палепшылася таксама агучванне тэкстаў.
— Гэта дакладна лепш, чым спробы некаторых папулярных замежных блогераў размаўляць па-беларуску. Прывітанне [Іллю] Варламаву, — кажа ён.
Ці можа штучны інтэлект паўплываць на развіццё мовы
Штучны інтэлект ужо становіцца інструментам, які дапамагае людзям вучыцца і карыстацца беларускай мовай, асабліва тым, хто не адчувае сябе ўпэўнена. Але, паводле Аляксея, змены ў мове трапляюць у мадэлі з затрымкай, бо навучанне патрабуе часу і вялікіх аб’ёмаў даных. Каб новыя словы замацаваліся, яны павінны стаць масавымі ў кантэнце.
— Для звычайнага беларуса штучны інтэлект — гэта дакладна памочнік. Магчыма, для прафесійных літаратараў ён пакуль занадта просты, але для астатніх — гэта магутны інструмент падтрымкі мовы.
Вы можаце абмеркаваць гэты матэрыял у нашым Telegram-канале. Калі вы не ў Беларусі, пераходзьце і падпісвайцеся.



