ШІ-програми не змогли скласти українські іспити

Українськими дослідниками було проведено експеримент щодо того, як ШІ впорається з НМТ/ЗНО. Результати виявилися неочікуваними: жодна з моделей не набрала навіть 70% правильних відповідей. Про це повідомляє «dev.ua».

Зокрема, командою українських дослідників було представлено «ZNOVision» — перший багатоформатний тест, що перевіряє можливості штучного інтелекту працювати з освітнім українським контентом і національною культурою. Результати показали, що навіть найпотужніші моделі, як-от GPT-4o чи Claude 3.5, не склали б українського ЗНО.

«ZNOVision» складається з понад 4 300 завдань, які поділяються на 13 категорій предметів: від фізики до літератури. Понад половина з них мають візуальний компонент — схеми, діаграми, карти й малюнки. Частина питань потребує логічного висновку, а інша потребує точної інтерпретації інструкцій українською.

До тестування було залучено шість основних моделей ШІ: GPT-4o, Claude 3.5 Sonnet, Gemini 1.5 Pro, Qwen2VL, Paligemma3B, PaligemmaFT. Жодна з моделей не досягла навіть 70% правильних відповідей.

Gemini Pro має результат 67,5% правильних відповідей.
Claude 3.5 — 64,3%.
Qwen2VL — 51,2%.
GPT-4o — 47%.

Найчастіше помилки траплялися у завданнях з візуальною компонентою. Штучному інтелекту було важко розпізнавати українські слова на зображеннях, також моделі плутали одиниці виміру. У наборі з візуальними запитаннями ШІ мав такі результати:

Claude — 26,7%.
GPT-4o — 29%.
Qwen2VL — 34,4%.

Цікаво, що англомовні результати мали понад 60% успішних завдань. Це означає, що ШІ загалом значно гірше орієнтується в українській мові.

Штучний інтелект не має бути монополією кількох мов. Українська повинна звучати в системах майбутнього так само впевнено, як англійська. І ми в «De Novo» віримо, що можемо створити для цього технологічне підґрунтя тут, в Україні, — зазначає Максим Агеєв, генеральний директор компанії De Novo.

Як зазначається, тестування «ZNOVision», з огляду на його масштабність, можна буде загалом використовувати як практичний засіб перевірки ШІ-рішень у сфері освіти.