В ядре алгоритма — генеративная языковая модель (GPT), которая извлекает из новостных сообщений и структурирует информацию о том, что, где и когда произошло, какой ущерб нанесен и какие меры принимались. Географы Вышки создали новую технологию при выполнении проекта «Лучшие практики адаптации к
Созданный географами ВШЭ алгоритм обрабатывает более 1000 текстов в час. В пилотном применении удалось автоматически извлечь и обработать более 50 тысяч новостных сообщений в 8 миллионах исходных текстов с новостных порталов, региональных сайтов МЧС и из пабликов органов власти в социальных сетях. Материалы освещали последствия или предупреждали о почти 30 тысячах событий, связанных с опасными и неблагоприятными природными явлениями.
«Крупные природные катастрофы ожидаемо получают в медиаресурсах больше внимания. Например, более 400 публикаций, которые прошли через наш алгоритм, были посвящены катастрофическому наводнению в Курганской, Оренбургской и Томской областях весной 2024 года. Но нам был важен именно массовый охват медиаисточников, чтобы собрать сведения и о локальных проблемах. Ведение многих похожих баз, а также попадание в статистику МЧС подразумевает преодоление некоторой планки ущерба. Если дорогу каждый год засыпает лавинами, но нет, условно, раздавленных машин, эта проблема может не фигурировать в статистике и отчетах, лавинную защиту не финансируют и не прописывают в KPI. Сейчас регионы России обновляют свои планы адаптации к изменениям климата, и это правильный момент, чтобы собрать фактический материал про себя, чтобы эффективно расставить приоритеты», — рассказала соавтор разработки Анна Деркачёва, научный сотрудник
Результат работы генеративной языковой модели по формированию базы данных об опасных природных явлениях подвергается дополнительной автоматизированной проверке. После нее затронутые территории наносятся на карту, а тексты об одном и том же происшествии группируются.