Рейтинг поможет бизнесу, государственным органам и гражданам выбрать большую языковую модель, которая показала наибольшую эффективность в решении задач экологического спектра. На момент проведения исследования (апрель 2025)
«В 2023 году только в центральный аппарат Росприроднадзора, согласно данным службы, поступило более 8200 обращений, причем более половины касались вопросов загрязнения окружающей среды. Использование ИИ позволит значительно сократить время обработки таких запросов и повысить доступность экспертных сведений в сфере экологии для бизнеса, государственных органов и населения», — отмечает один из руководителей исследования, доцент департамента менеджмента НИУ ВШЭ —
Ученые из петербургского и пермского кампусов НИУ ВШЭ оценивали языковые модели на основании концепции когерентности ответов. Для тестирования был отобран 81 запрос разного уровня сложности — от простых бинарных (с ответом «да» или «нет») до сложных, требующих развернутого ответа. Ответы моделей сравнивались с мнениями экспертов. Оценивалось, насколько логично, точно и содержательно большая языковая модель (LLM) передает суть темы.
Рейтинг LLM моделей в сфере экологии по состоянию на апрель 2025 года
Рейтинг | LLM | Итоговый балл |
1 | Grok AI | 2.636218 |
2 | Qwen | 2.054098 |
3 | DeepSeek | 1.912428 |
4 | Yandex GPT | 1.660196 |
5 | GigaChat | 1.331862 |
6 | Mistral | 1.265062 |