• A
  • A
  • A
  • АБВ
  • АБВ
  • АБВ
  • A
  • A
  • A
  • A
  • A
Обычная версия сайта
  • RU
  • EN
  • Национальный исследовательский университет «Высшая школа экономики»
  • Публикации ВШЭ
  • Препринты
  • A Novel Psychometrics-Based Approach to Developing Professional Competency Benchmark for Large Language Models
  • RU
  • EN
Расширенный поиск
Высшая школа экономики
Национальный исследовательский университет
Приоритетные направления
  • бизнес-информатика
  • государственное и муниципальное управление
  • гуманитарные науки
  • инженерные науки
  • компьютерно-математическое
  • математика
  • менеджмент
  • право
  • социология
  • экономика
по году
  • 2027
  • 2026
  • 2025
  • 2024
  • 2023
  • 2022
  • 2021
  • 2020
  • 2019
  • 2018
  • 2017
  • 2016
  • 2015
  • 2014
  • 2013
  • 2012
  • 2011
  • 2010
  • 2009
  • 2008
  • 2007
  • 2006
  • 2005
  • 2004
  • 2003
  • 2002
  • 2001
  • 2000
  • 1999
  • 1998
  • 1997
  • 1996
  • 1995
  • 1994
  • 1993
  • 1992
  • 1991
  • 1990
  • 1989
  • 1988
  • 1987
  • 1986
  • 1985
  • 1984
  • 1983
  • 1982
  • 1981
  • 1980
  • 1979
  • 1978
  • 1977
  • 1976
  • 1975
  • 1974
  • 1973
  • 1972
  • 1971
  • 1970
  • 1969
  • 1968
  • 1967
  • 1966
  • 1965
  • 1964
  • 1963
  • 1958
  • еще
Тематика
Новости
30 июня 2026 г.
Аспирантка НИУ ВШЭ получила премию за выдающуюся научную статью
Международное научное общество по коллективному выбору и экономике благосостояния — Society for Social Choice and Welfare (SSCW) — присудило награду для молодых исследователей Ангелине Юдиной, аспирантке и преподавателю департамента математики ФЭН, младшему научному сотруднику Международного центра анализа и выбора решений НИУ ВШЭ. Ученые отметили ее статью, посвященную решениям задачи выбора наилучших альтернатив на основании результатов их попарных сравнений.
30 июня 2026 г.
«Я хотела бы, чтобы мои исследования помогали делать мир спокойнее и лучше»
Какую бы задачу ни решала младший научный сотрудник Лаборатории методов анализа больших данных Института искусственного интеллекта и цифровых наук ФКН ВШЭ Сараа Али, она думает, какую пользу она может принести людям. О своей большой семье, диагностике трехфазных двигателей и мечте построить на родине детский приют она рассказала проекту «Молодые ученые Вышки».
30 июня 2026 г.
Экономисты ВШЭ научились прогнозировать рождаемость по поисковым запросам
Сотрудники факультета экономических наук НИУ ВШЭ показали, что точность прогноза рождаемости в России можно улучшить почти в полтора раза, если добавить в модель динамику поисковых запросов по темам, связанным с беременностью и родами. В наиболее эффективных моделях ошибка прогноза снижается с 4,6 до 3,2%. Результаты исследования опубликованы в журнале Populations and Economics.

 

Нашли опечатку?
Выделите её, нажмите Ctrl+Enter и отправьте нам уведомление. Спасибо за участие!

Публикации
  • Книги
  • Статьи
  • Главы в книгах
  • Препринты
  • Верификация публикаций
  • Расширенный поиск
  • Правила использования материалов
  • Наука в ВШЭ

?

A Novel Psychometrics-Based Approach to Developing Professional Competency Benchmark for Large Language Models

2024.
Карданова Е. Ю., Иванова А. Е., Тарасова К. В., Пащенко Т. В., Tikhoniuk A., Юсупова Э. М., Каспржак А. Г., Кузьминов Я. И., Кручинская Е. В., Brun I.
The era of large language models (LLM) raises questions not only about how to train models, but also about how to evaluate them. Despite numerous existing benchmarks, insufficient attention is often given to creating assessments that test LLMs in a valid and reliable manner. To address this challenge, we accommodate the Evidence-centered design (ECD) methodology and propose a comprehensive approach to benchmark development based on rigorous psychometric principles. In this paper, we have made the first attempt to illustrate this approach by creating a new benchmark in the field of pedagogy and education, highlighting the limitations of existing benchmark development approach and taking into account the development of LLMs. We conclude that a new approach to benchmarking is required to match the growing complexity of AI applications in the educational context. We construct a novel benchmark guided by the Bloom's taxonomy and rigorously designed by a consortium of education experts trained in test development. Thus the current benchmark provides an academically robust and practical assessment tool tailored for LLMs, rather than human participants. Tested empirically on the GPT model in the Russian language, it evaluates model performance across varied task complexities, revealing critical gaps in current LLM capabilities. Our results indicate that while generative AI tools hold significant promise for education - potentially supporting tasks such as personalized tutoring, real-time feedback, and multilingual learning - their reliability as autonomous teachers' assistants right now remain rather limited, particularly in tasks requiring deeper cognitive engagement.
Научное направление: Образование Компьютерные науки Прочие социальные науки
Приоритетные направления: компьютерно-математическое
Язык: английский
Полный текст
DOI
Текст на другом сайте
Ключевые слова: тестированиепрофессиональные компетенцииtestingпсихометрикаpsychometricsprofessional competenceLLMбольшие языковые модели
Похожие публикации
Великие империи Древнего Ирана: новый аутентичный мультимедийный учебный комплекс
Громова А. В., Научный вестник Крыма (Россия, ISSN: 2499-9911) 2021 № 2 (31) С. 1–13
Запущенный в Иране в 2020 г. проект ‘Телешкола’ опирается на опубликованные Министерством образования и воспитания школьные учебники и во многом отражает стандартное видение иранцами собственной истории и их стремление к продвижению богатейшего культурного наследия страны. Данная статья посвящена лингводидактическому потенциалу материалов «Телешколы» в контексте подготовки нового цифрового УМК по персидскому языку, который объединяет работу с ...
Добавлено: 30 июня 2026 г.
Когда чаще не значит лучше: сценарии использования генеративного ИИ в высшем образовании
Тарасова К. В., Талов Д. П., Иванова А. Е., Высшее образование в России 2026 Т. 35 № 6 С. 152–173
Статья посвящена анализу связи между использованием генеративного искусственного интеллекта (ИИ) в учебной деятельности и ИИ-связанными характеристиками студентов российских вузов. Исходной предпосылкой исследования является необходимость отказаться от упрощённого отождествления частоты использования ИИ с ИИ-грамотностью или компетентностью взаимодействия с генеративными системами. В статье отдельно рассматриваются четыре характеристики: функциональная опора на ИИ при принятии решений, антропоморфизация ИИ, этическая ...
Добавлено: 29 июня 2026 г.
Разработка и валидизация шкалы увлеченности профессией
Иванова А. Е., Манина В. А., Новые психологические исследования 2026 № 1 С. 100–122
Статья посвящена разработке и валидизации шкалы «Увлеченность профессией» для студентов высших учебных заведений. Актуальность исследования обусловлена важностью формирования позитивного отношения к будущей профессии на этапе профессионального становления, что влияет на академические достижения, построение карьерных траекторий и психологическое благополучие студентов. Несмотря на актуальность темы профессионального развития, в отечественном исследовательском поле недостаточно надежных инструментов, направленных на измерение ...
Добавлено: 29 июня 2026 г.
Корпоративные университеты России - 2025
Катькало В. С., Шумкова Н. В., Ужакина Ю. Б. и др., Издательский дом НИУ ВШЭ, 2026.
Настоящая книга является результатом четвертой волны исследования популяции российских корпоративных университетов, проводимого с 2022 г. высшей школой бизнеса НИУ ВШЭ. В это издание включены анализ даных о бизнес-моделях и портфелях программ этих корпоративных университетов по состоянию на 2025 г. и первый опыт сравнительного исследования отраслевых особенностей корпоративных университетов в ряде ключевых секторов экономики России. Также ...
Добавлено: 29 июня 2026 г.
Внедрение новых международных стандартов статистики неформальной экономики в практику Росстата: проблемы и перспективы
Лукьянова А. Л., Демьянова А. В., Талакаускас Д. С., Экономический журнал Высшей школы экономики 2026 Т. 30 № 2 С. 313–343
Статья посвящена проблеме статистического измерения неформальности на рынке труда в контексте масштабного обновления международных стандартов. Целью исследования является комплексный анализ положений Резолюции о статистике неформальной экономики, принятой на 21-й МКСТ (2023 г.), разработка рекомендаций по их внедрению в российскую статистическую практику и предварительная оценка последствий перехода на новые стандарты. Методология работы основана на изучении развития ...
Добавлено: 28 июня 2026 г.
Крах либеральной модернизации и вызов "Русской матрицы"
Заостровцев А. П., Вопросы теоретической экономики 2026 № 2 С. 26–45
В статье рассматривается концептуальная и фактическая несостоятельность либеральной модернизации в современную эпоху. Транзитология, столь влиятельная в 1990-е гг., ушла в небытие. Западная модель не привилась во многих постсоциалистических странах. По критериям демократизации разрыв между Россией и принявшими эту модель странами стал радикальным. При этом Запад стал терять качества, присущие классическому либерализму. Они вытесняются новыми институтами, которые призваны разрушить верховенство ...
Добавлено: 28 июня 2026 г.
The 12th International Conference on Information Technology and Quantitative Management (ITQM 2025)
Netherlands: ScienceDirect, 2025.
Добавлено: 28 июня 2026 г.
Object-centric process management: A research manifesto
Seidel A., Weske M., Montali M. и др., Information Systems 2026 Vol. 141 Article 102728
Добавлено: 27 июня 2026 г.
2024 26th International Conference on Digital Signal Processing and its Applications (DSPA)
IEEE, 2024.
Добавлено: 27 июня 2026 г.
Построение методик оценки качества восприятия (QOE) потокового видео
Ивченко А. В., Дворкович А. В., Телекоммуникации 2020 Т. 12 С. 2–11
Технология Dynamic Adaptive Streaming over HTTP (DASH) обеспечивает работу большинства мультимедийных сервисов, ее особенности (повторные буферизации, переключения качества и др.) приводят к необходимости создания специализированных методик оценки пользовательского, субъективного качества восприятия Quality of Experience (QoE) на основе объективных параметров. В данной статье исследуется влияние различных метрик на QoE и приводятся модели оценки с коэффициентом корреляции ...
Добавлено: 27 июня 2026 г.
Exploitation in rent systems: relational inequality between and within organizations
Шамс С., International Review of Sociology 2026 Vol. 36 No. 1 P. 262–289
Добавлено: 27 июня 2026 г.
Платформа, управляемая событиями, для интеграции компонентов машинного зрения с операционным центром.
Гаджимирзаев Ш. М., Хельвас А. В., 2023 3rd International Conference on Innovative Research in Applied Science, Engineering and Technology (IRASET) Mohammedia, Morocco 2023 P. 1–6
В статье предлагается архитектура событийно-управляемого Центра экстренного реагирования с компонентом компьютерного зрения. Анализируются источники информации и обсуждаются подходы к использованию событий компьютерного зрения для обнаружения и оценки тактических ситуаций. Сообщения от компонентов компьютерного зрения преобразуются в Протокол общих оповещений (Common Alerting Protocol) и обрабатываются средой Центра управления для распознавания тактических ситуаций. ...
Добавлено: 26 июня 2026 г.
Дискретное моделирование процесса восстановительного ремонта участка дороги
Гаджимирзаев Ш. М., Хельвас А. В., Компьютерные исследования и моделирование 2022 Т. 14 № 6 С. 1255–1268
абота содержит описание результатов моделирования процесса поддержания готовности участка дорожной сети в условиях воздействия с заданными параметрами. Рассматривается одномерный участок дороги длиной до 40 км с общим количеством ударов до 100 в течение рабочей смены бригады. Разработана имитационная модель проведения работ по его поддержанию в рабочем состоянии несколькими группами (инженерными бригадами), входящими в состав инженерно-дорожного ...
Добавлено: 26 июня 2026 г.
Подход к оценке динамики уровня консолидированности отрасли
Гаджимирзаев Ш. М., Хельвас А. В., Лукьянченко П. П., Computer Research and Modeling 2023 Vol. 15 No. 1 P. 129–140
В данной статье нами предложен новый подход к анализу эконометрических параметров отрасли для уровня консолидированности отрасли. Исследование базируется на простой модели управления отраслью в соответствии с моделью из теории автоматического управления. Состояние отрасли оценивается на основе ежеквартальных эконометрических параметров получаемых в обезличенном виде от каждой компании отрасли через налогового регулятора. Предложен подход к анализу отрасли, ...
Добавлено: 26 июня 2026 г.
Цифровой двойник полностью автоматизированного склада с глубокими стеллажами
Гаджимирзаев Ш. М., Хельвас А. В., International Frequency Sensor Association (IFSA) Publishing, 19-21 February 2025 Granada, Spain 2025 P. 172–176
В статье представлены модели инновационного полностью роботизированного склада для хранения коробочных товаров. Была реализована дискретная многоагентная симуляция движения челноков на складе для заданной последовательности паллетных отгрузок. Оцениваются различные стратегии размещения коробок в разных зонах склада, а также оптимальные схемы маршрутизации челноков для заданной топологии склада. Также оценивается оптимальное количество челноков, максимизирующее производительность склада. ...
Добавлено: 26 июня 2026 г.
Incorporating Scientific Knowledge into Neural Network Density Functionals
Медведев М. Г., Journal of Chemical Theory and Computation 2026 Vol. 22 No. 9
Добавлено: 26 июня 2026 г.
Development of a self-regulated learning scenario scale with holistic and specific answer options
Антипкина И. В., Kavalchuk I., Ludlow L., Quality and Quantity 2026 P. 1–24
Добавлено: 26 июня 2026 г.
Заморозка в “кулинарном треугольнике”: практики питания оленеводов, охотников и рыбаков Западной Сибири
Рахманова Л. Я., Этнографическое обозрение 2026 № 3 С. 100–121
Данная статья обладает трехуровневой структурой. Сначала через обращение к конкретным примерам в сфере этнографии пищи я перехожу к классификациям, локализующим по-разному сырое и приготовленное, пригодное для употребления в пищу и опасное, живое и неживое. Этот узкий, феноменологически связанный с практиками питания локус классификаций, который в антропологии многие десятилетия использовался как рабочий язык для описания традиций ...
Добавлено: 25 июня 2026 г.
Logrolling and the power of single-mindedness
Самсонов А. Д., Sole Olle A., Xefteris D., Journal of Economic Behavior and Organization 2026 Vol. 248 Article 107642
Добавлено: 24 июня 2026 г.
Субъективное благополучие школьников: представления учителей
Поповичева Е. С., Канонир Т., Мир психологии. Научно-методический журнал 2025 № № 3 (122) Июль - сентябрь С. 253–265
В статье представлены результаты качественного исследования представлений учителей о факторах субъективного благополучия детей и подростков в школе, а также о возможных практиках его поддержки. В рамках исследования были опрошены 17 педагогов с опытом преподавания разных дисциплин в различных типах школ — в начальной, основной и старшей школе. Как наиболее важный фактор, определяющий субъективное благополучие в школе, учителя называют ...
Добавлено: 24 июня 2026 г.
Моделирование полностью роботизированного склада со стеллажами глубокого хранения
Гаджимирзаев Ш. М., Хельвас А. В., Computer Research and Modeling 2026 Vol. 18 No. 2 P. 423–438
В данной статье рассматривается модель полностью роботизированного склада с глубо кими стеллажами, предназначенного для хранения коробочных товаров. Основное внимание уделено оптимизации работы склада за счет дискретного мультиагентного моделирования дви жения шаттлов, выполняющих задачи по отгрузке и размещению коробок. Авторы исследуют различные стратегии размещения товаров в зонах склада, включая алгоритмы NCPA (Nearest Channel Positioning Algorithm), MECGP (Most Empty Channel Group Placement) ...
Добавлено: 24 июня 2026 г.
Growth in noncommutative algebras and entropy in derived categories
Пионтковский Д. И., / Series arXiv "math". 2026.
Добавлено: 23 июня 2026 г.
Multilinear nilalgebras and the Jacobian theorem
Пионтковский Д. И., / Series arXiv "math". 2025.
Добавлено: 23 июня 2026 г.
Proceedings of the 4th Workshop on NLP for Music and Audio (NLP4MusA 2026)
Бузаев Ф. А., Mullakhmetov R., Bogachev R. и др., Association for Computational Linguistics, 2026.
Добавлено: 22 июня 2026 г.
  • О ВЫШКЕ
  • Цифры и факты
  • Руководство и структура
  • Устойчивое развитие в НИУ ВШЭ
  • Преподаватели и сотрудники
  • Корпуса и общежития
  • Закупки
  • Обращения граждан в НИУ ВШЭ
  • Фонд целевого капитала
  • Противодействие коррупции
  • Сведения о доходах, расходах, об имуществе и обязательствах имущественного характера
  • Сведения об образовательной организации
  • Людям с ограниченными возможностями здоровья
  • Единая платежная страница
  • Работа в Вышке
  • ОБРАЗОВАНИЕ
  • Лицей
  • Довузовская подготовка
  • Олимпиады
  • Прием в бакалавриат
  • Вышка+
  • Прием в магистратуру
  • Аспирантура
  • Дополнительное образование
  • Центр развития карьеры
  • Бизнес-инкубатор ВШЭ
  • Образовательные партнерства
  • Обратная связь и взаимодействие с получателями услуг
  • НАУКА
  • Научные подразделения
  • Исследовательские проекты
  • Мониторинги
  • Диссертационные советы
  • Защиты диссертаций
  • Академическое развитие
  • Конкурсы и гранты
  • Внешние научно-информационные ресурсы
  • РЕСУРСЫ
  • Библиотека
  • Издательский дом ВШЭ
  • Книжный магазин «БукВышка»
  • Типография
  • Медиацентр
  • Журналы ВШЭ
  • Публикации
  • http://www.minobrnauki.gov.ru/
    Министерство науки и высшего образования РФ
  • https://edu.gov.ru/
    Министерство просвещения РФ
  • http://www.edu.ru
    Федеральный портал «Российское образование»
  • https://elearning.hse.ru/mooc
    Массовые открытые онлайн-курсы
  • НИУ ВШЭ1993–2026
  • Адреса и контакты
  • Условия использования материалов
  • Политика конфиденциальности
  • Правила применения рекомендательных технологий в НИУ ВШЭ
  • Карта сайта
Редактору