Z-новости

21.05.2025

НИУ ВШЭ и Росприроднадзор оценили профессионализм ИИ-моделей в сфере экологии

Рейтинг поможет бизнесу, государственным органам и гражданам выбрать большую языковую модель, которая показала наибольшую эффективность в решении задач экологического спектра. На момент проведения исследования (апрель 2025) 1-е место из шести занял Grok Ai, в тройку лидеров эксперты также включили «китайцев»: Qwen и DeepSeek. Отечественные модели Yandex GPT и GigaChat, которые тоже вошли в исследование, заняли 4-е и 5-е места по знаниям в экологическом законодательстве РФ и пониманию экологической повестки. В выборке были протестированы исключительно те модели, к которым имеется свободный доступ через сеть Интернет, а также отсутствуют правовые и технические ограничения для установки в закрытом контуре пользователя.
«В 2023 году только в центральный аппарат Росприроднадзора, согласно данным службы, поступило более 8200 обращений, причем более половины касались вопросов загрязнения окружающей среды. Использование ИИ позволит значительно сократить время обработки таких запросов и повысить доступность экспертных сведений в сфере экологии для бизнеса, государственных органов и населения», — отмечает один из руководителей исследования, доцент департамента менеджмента НИУ ВШЭ — Санкт-Петербург Максим Сторчевой.
Ученые из петербургского и пермского кампусов НИУ ВШЭ оценивали языковые модели на основании концепции когерентности ответов. Для тестирования был отобран 81 запрос разного уровня сложности — от простых бинарных (с ответом «да» или «нет») до сложных, требующих развернутого ответа. Ответы моделей сравнивались с мнениями экспертов. Оценивалось, насколько логично, точно и содержательно большая языковая модель (LLM) передает суть темы.

Рейтинг LLM моделей в сфере экологии по состоянию на апрель 2025 года

Рейтинг

LLM

Итоговый балл

1

Grok AI

2.636218

2

Qwen

2.054098

3

DeepSeek

1.912428

4

Yandex GPT

1.660196

5

GigaChat

1.331862

6

Mistral

1.265062


Возврат к списку