«Жарты на ўзроўні падлетка». Як штучны інтэлект разумее беларускую мову

Ці разумее штучны інтэлект (ШІ) беларускую мову? Чаму часам ён адказвае «Жыве!» і дадае чырвона-зялёны сцяжок? Ці адрозніваюць мадэлі «наркамаўку» і тарашкевіцу? І чаму часам ШІ жартуе, як падлетак? Пра гэта MOST пагаварыў з Аляксеем Картыннікам — айцішнікам, які вядзе YouTube-канал «АйТиБорода» і новы сумесны падкаст «Каласы пад сярпом ШІ».

Як з’явіўся падкаст пра ШІ па-беларуску

«Каласы пад сярпом ШІ» — беларускамоўны падкаст пра штучны інтэлект (ШІ), які можна паслухаць на YouTube і Spotify. Яго робяць Аляксей Картыннік, вядоўца курсу «Мова нанова» Эмілія Гаўрус і айцішнік Яўген Яфімаў. Картыннік і Гаўрус жывуць у Польшчы, а Яфімаў — у Нідэрландах.

Ідэя стварыць падкаст з’явілася ў Аляксея год таму. Да гэтага ён ужо рабіў падкаст пра ШІ для айцішнікаў па-руску, але хацеў запусціць такі ж праект па-беларуску.

— Мне вельмі хацелася, каб беларусы маглі пачуць пра навіны штучнага інтэлекту ў падкаст-фармаце і без празмернага ўплыву складанай IT-тэрміналогіі, каб разумелі нашыя мамы і таты, — кажа ён.

«Менавіта Gemini валодае найбольш літаратурнай і чалавечай мовай»

Беларуская мова прадстаўленая ў нейрасетках, напрыклад у ChatGPT ад OpenAI, Claude ад Anthropic і Gemini ад Google.

— Але на мой асабісты густ, менавіта Gemini валодае найбольш літаратурнай і чалавечай мовай. Пры гэтым GPT і Claude таксама спраўляюцца даволі няблага, — кажа Аляксей. — Гаворка не пра прынцыпова розныя ўзроўні, а хутчэй пра нюансы ў гучанні і стылі.

Як ШІ перакладае на беларускую і дзе памыляецца

Пры перакладах з рускай на беларускую сітуацыя падобная: лепш за ўсё, паводле Аляксея, спраўляецца Gemini, але іншыя мадэлі не моцна адстаюць.

— Што тычыцца касякоў: раней мадэлі часта ўжывалі ўкраінскія словы, цяпер такіх памылак усё менш.

Аляксей тлумачыць, што нейрасеткі апрацоўваюць мовы як сістэмы сімвалаў і часцей блытаюць тыя, што блізкія паміж сабой. Таму паміж беларускай, рускай і ўкраінскай памылак больш, а паміж беларускай і польскай — менш.

Ці разумее штучны інтэлект, што такое «наркамаўка» і тарашкевіца

Нейрасеткі навучаліся на розных тэкстах, у тым ліку і на розных правапісах беларускай мовы: тарашкевіцы (моўнай норме, зафіксаванай Браніславам Тарашкевічам) і так званай наркамаўцы (школьным правапісе, рэгуляваным Інстытутам мовазнаўства НАН Беларусі).

— Калі вы папросіце мадэль адказваць на тарашкевіцы, яна будзе намагацца гэта рабіць. Калі вы падасце на ўваход тэкст на тарашкевіцы, мадэль зразумее стыль і, хутчэй за ўсё, адкажа ў тым жа ключы, — кажа Аляксей.

Пры гэтым ён тлумачыць, што праз меншы корпус беларускамоўных тэкстаў мадэлі могуць блытаць нормы.

З трасянкай Аляксей не эксперыментаваў, але, на яго думку, мадэлі, хутчэй за ўсё, будуць схіляцца да нарматыўнай мовы.

— Трасянка не нармаваная, па ёй няма падручнікаў, таму ШІ не ўспрымае яе як асобную сістэму. Мадэль проста адкажа на той мове, якую палічыць найбольш блізкай да вашага запыту, — кажа ён.

Штучны інтэлект разумее каламбуры

Гумар пакуль застаецца слабым месцам штучнага інтэлекту, бо ён базіруецца на чалавечым досведзе, які мы назапашваем цягам усяго жыцця.

— Мадэлі жартуюць прыкладна на ўзроўні падлетка. Складаны сарказм ці тонкія панчлайны (кульмінацыйныя радкі або фразы, якія выклікаюць рэакцыю; найчасцей з нечаканым сэнсам, гульнёй слоў або алюзіяй. — Заўв. MOST) ім пакуль не зусім даступныя, — тлумачыць суразмоўца. — З каламбурамі ШІ спраўляецца лепш: ён можа растлумачыць сутнасць гульні слоў, але сам стварае іх пакуль слаба.

«Жыве Беларусь» — «Жыве!» А сцяг — чырвона-зялёны

Што да культурнага кантэксту, шмат што залежыць ад таго, як навучана мадэль і якой палітыкі прытрымліваецца кампанія-распрацоўшчык.

— Напрыклад, калі напісаць ChatGPT «Жыве Беларусь», ён можа адказаць «Жыве!» і паставіць чырвона-зялёны сцяг. Для мадэлі ў гэтым няма супярэчнасці — яна проста выдае афіцыйны смайл краіны, бо яе трэніруюць быць максімальна нейтральнай для сярэднестатыстычнага карыстальніка, — кажа Аляксей.

Ён дадае, што ў падобных выпадках мадэлі часта не ўлоўліваюць глыбінны культурны сэнс. Напрыклад, фразу пра «агульную млявасць і абыякавасць да жыцця» ўспрымаюць літаральна.

— Яны могуць патлумачыць гэта як апатыю ці нават медыцынскі тэрмін, але культурны глыбінны кантэкст часта застаецца па-за ўвагай.

Як беларусы спрабуюць палепшыць ШІ

Аляксей кажа, што над паляпшэннем беларускай мовы ў ШІ працуюць у асноўным энтузіясты. Напрыклад, супольнасць Belarusian GLUE стварае тэсты і збірае даныя, каб мадэлі лепш разумелі беларускі кантэкст. Без дзяржаўнай падтрымкі гэты працэс ідзе павольней.

— Па маіх назіраннях, за апошні год якасць беларускай мовы ў топавых нейрасетак значна вырасла. Мадэлі становяцца больш магутнымі і навучаюцца на ўсім адкрытым інтэрнэце. І тут мы, як супольнасць, можам паўплываць: чым больш мы ствараем якаснага беларускамоўнага кантэнту — артыкулаў, падкастаў, відэа, — тым лепей мадэлі будуць валодаць нашай мовай у будучыні.

Каротка Аляксей ацэньвае ўзровень так: сёння ШІ размаўляе па-беларуску прыкладна як сярэднестатыстычны чалавек. Палепшылася таксама агучванне тэкстаў.

— Гэта дакладна лепш, чым спробы некаторых папулярных замежных блогераў размаўляць па-беларуску. Прывітанне [Іллю] Варламаву, — кажа ён.

Ці можа штучны інтэлект паўплываць на развіццё мовы

Штучны інтэлект ужо становіцца інструментам, які дапамагае людзям вучыцца і карыстацца беларускай мовай, асабліва тым, хто не адчувае сябе ўпэўнена. Але, паводле Аляксея, змены ў мове трапляюць у мадэлі з затрымкай, бо навучанне патрабуе часу і вялікіх аб’ёмаў даных. Каб новыя словы замацаваліся, яны павінны стаць масавымі ў кантэнце.

— Для звычайнага беларуса штучны інтэлект — гэта дакладна памочнік. Магчыма, для прафесійных літаратараў ён пакуль занадта просты, але для астатніх — гэта магутны інструмент падтрымкі мовы.

Вы можаце абмеркаваць гэты матэрыял у нашым Telegram-канале. Калі вы не ў Беларусі, пераходзьце і падпісвайцеся.

Тэгі: IT Артыкулы Галоўнае

«Мадэлі жартуюць на ўзроўні падлетка». Эксперт патлумачыў, як штучны інтэлект разумее беларускую мову

ГАЛОЎНЫЯ НАВІНЫ

У беларусов в Варшаве сгорела съемная квартира и почти все вещи и документы. Они смогли спасти только котов

Думал открыть пункт Wildberries, а купил квартиру. Беларус ведет блог о том, как через польскую фирму собирает брокколи в Нидерландах

Працаваў чатыры гадзіны ў дзень — і зарабіў на адпачынак у Італіі. Беларус — пра заробак кур’ера ў Польшчы