• A
  • A
  • A
  • АБВ
  • АБВ
  • АБВ
  • A
  • A
  • A
  • A
  • A
Обычная версия сайта
  • RU
  • EN
  • Национальный исследовательский университет «Высшая школа экономики»
  • Публикации ВШЭ
  • Препринты
  • A Novel Psychometrics-Based Approach to Developing Professional Competency Benchmark for Large Language Models
  • RU
  • EN
Расширенный поиск
Высшая школа экономики
Национальный исследовательский университет
Приоритетные направления
  • бизнес-информатика
  • государственное и муниципальное управление
  • гуманитарные науки
  • инженерные науки
  • компьютерно-математическое
  • математика
  • менеджмент
  • право
  • социология
  • экономика
по году
  • 2027
  • 2026
  • 2025
  • 2024
  • 2023
  • 2022
  • 2021
  • 2020
  • 2019
  • 2018
  • 2017
  • 2016
  • 2015
  • 2014
  • 2013
  • 2012
  • 2011
  • 2010
  • 2009
  • 2008
  • 2007
  • 2006
  • 2005
  • 2004
  • 2003
  • 2002
  • 2001
  • 2000
  • 1999
  • 1998
  • 1997
  • 1996
  • 1995
  • 1994
  • 1993
  • 1992
  • 1991
  • 1990
  • 1989
  • 1988
  • 1987
  • 1986
  • 1985
  • 1984
  • 1983
  • 1982
  • 1981
  • 1980
  • 1979
  • 1978
  • 1977
  • 1976
  • 1975
  • 1974
  • 1973
  • 1972
  • 1971
  • 1970
  • 1969
  • 1968
  • 1967
  • 1966
  • 1965
  • 1964
  • 1963
  • 1958
  • еще
Тематика
Новости
19 мая 2026 г.
Физики НИУ ВШЭ выяснили, что происходит внутри устойчивого вихря
В атмосфере и в океане часто наблюдаются крупные вихри с характерными спиральными рукавами. Физики из НИУ ВШЭ объяснили, как они формируются и почему сохраняют свою структуру. Оказалось, что скорости в точках, расположенных вдоль одной дуги вихря, остаются связанными даже на больших расстояниях. При этом в направлении от центра вихря эта связь быстро ослабевает. Такие различия помогают объяснить образование рукавов и могут улучшить модели атмосферных и океанических течений. Результаты опубликованы в Physical Review Fluids.
18 мая 2026 г.
В Вышке прошла XXX юбилейная научно-техническая конференция имени Е.В. Арменского
Организатором научного события выступает Московский институт электроники и математики им. А.Н. Тихонова ВШЭ. В этом году главный инженерный студенческий форум проходил 30-й раз и собрал рекордное число участников. Студенты, аспиранты и молодые специалисты из 50 вузов и организаций России представили научно-исследовательские доклады в ИТ-области. Отдельная секция была посвящена научно-исследовательским работам школьников.
15 мая 2026 г.
В НИУ ВШЭ разрабатывают нейросеть для сферы науки и инноваций
Исследователи НИУ ВШЭ учат большие языковые модели понимать русскоязычную научную терминологию, увеличивая при этом их энергоэффективность. Адаптированная модель работает в 2,7 раза быстрее и требует на 73% меньше памяти, чем исходная открытая модель, что позволяет запускать ее на более доступном оборудовании. Программа прошла государственную регистрацию.

 

Нашли опечатку?
Выделите её, нажмите Ctrl+Enter и отправьте нам уведомление. Спасибо за участие!

Публикации
  • Книги
  • Статьи
  • Главы в книгах
  • Препринты
  • Верификация публикаций
  • Расширенный поиск
  • Правила использования материалов
  • Наука в ВШЭ

?

A Novel Psychometrics-Based Approach to Developing Professional Competency Benchmark for Large Language Models

2024.
Карданова Е. Ю., Иванова А. Е., Тарасова К. В., Пащенко Т. В., Tikhoniuk A., Юсупова Э. М., Каспржак А. Г., Кузьминов Я. И., Кручинская Е. В., Brun I.
The era of large language models (LLM) raises questions not only about how to train models, but also about how to evaluate them. Despite numerous existing benchmarks, insufficient attention is often given to creating assessments that test LLMs in a valid and reliable manner. To address this challenge, we accommodate the Evidence-centered design (ECD) methodology and propose a comprehensive approach to benchmark development based on rigorous psychometric principles. In this paper, we have made the first attempt to illustrate this approach by creating a new benchmark in the field of pedagogy and education, highlighting the limitations of existing benchmark development approach and taking into account the development of LLMs. We conclude that a new approach to benchmarking is required to match the growing complexity of AI applications in the educational context. We construct a novel benchmark guided by the Bloom's taxonomy and rigorously designed by a consortium of education experts trained in test development. Thus the current benchmark provides an academically robust and practical assessment tool tailored for LLMs, rather than human participants. Tested empirically on the GPT model in the Russian language, it evaluates model performance across varied task complexities, revealing critical gaps in current LLM capabilities. Our results indicate that while generative AI tools hold significant promise for education - potentially supporting tasks such as personalized tutoring, real-time feedback, and multilingual learning - their reliability as autonomous teachers' assistants right now remain rather limited, particularly in tasks requiring deeper cognitive engagement.
Научное направление: Образование Компьютерные науки Прочие социальные науки
Приоритетные направления: компьютерно-математическое
Язык: английский
Полный текст
DOI
Текст на другом сайте
Ключевые слова: тестированиепрофессиональные компетенцииtestingпсихометрикаpsychometricsprofessional competenceLLMбольшие языковые модели
Похожие публикации
Aerokinesis: An IoT-Based Vision-Driven Gesture Control System for Quadcopter Navigation Using Deep Learning and ROS2
Pikalov V., Meshcheryakov V., Kondratev S. и др., Technologies 2026 Vol. 14 No. 1 P. 1–27
This paper presents Aerokinesis, an IoT-based software–hardware system for intuitive gesture-driven control of quadcopter unmanned aerial vehicles (UAVs), developed within the Robot Operating System 2 (ROS2) framework. The proposed system addresses the challenge of providing an accessible human–drone interaction interface for operators in scenarios where traditional remote controllers are impractical or unavailable. The architecture comprises ...
Добавлено: 19 мая 2026 г.
Aerokinesis: An IoT-Based Vision-Driven Gesture Control System for Quadcopter Navigation Using Deep Learning and ROS2
Кондратьев С., Никитин Г. Э., Дырченкова Ю. А. и др., Technologies 2026 Vol. 14 No. 1 P. 1–27
This paper presents Aerokinesis, an IoT-based software–hardware system for intuitive gesture-driven control of quadcopter unmanned aerial vehicles (UAVs), developed within the Robot Operating System 2 (ROS2) framework. The proposed system addresses the challenge of providing an accessible human–drone interaction interface for operators in scenarios where traditional remote controllers are impractical or unavailable. The architecture comprises ...
Добавлено: 19 мая 2026 г.
Проблемы и перспективы реализации билингвальных образовательных программ в Республике Сербия
Замковая М. А., Педагогика и психология образования 2026 № 1 С. 57–67
В статье рассматривается процесс становления системы билингвального образования в Республике Сербия с акцентом на его цели, достижения и существующие вызовы. Отмечается, что несмотря на положительные результаты, образовательные учреждения сталкиваются с рядом проблем, среди которых недостаточное финансирование, нехватка квалифицированных специалистов и отсутствие четкой нормативно-правовой базы, регламентирующей процесс билингвального обучения. В статье также анализируются результаты эмпирических исследований, ...
Добавлено: 18 мая 2026 г.
Parallel Computational Technologies. PCT 2025
Springer, 2025.
Добавлено: 18 мая 2026 г.
Мама, папа, дайте денег! Как воспитать у детей разумное отношение к финансам?
Андреева О. С., Просвещение, 2023.
Эта книга о том, как воспитать финансово грамотных детей. Не так важно, какой уровень дохода в вашей семье: умение зарабатывать, сберегать и тратить поможет вашим детям достичь благополучия в будущем. Все необходимые навыки для реальной сложной и порой трудной жизни вы должны вложить в детей сами. Эта книга – пособие, которое поможет родителям понятно, последовательно и ...
Добавлено: 18 мая 2026 г.
"Деньги. 250 фактов. Энциклопедия"
Андреева О. С., Росмэн-Пресс, 2026.
«Деньги. Энциклопедия российского школьника» кратко и емко расскажет: · Чем в древности платили за товары · Как выглядели первые деньги, из чего их делали и где хранили · Как найти клад и можно ли выиграть в лотерею · Как работает банк · Как дети и подростки могут зарабатывать и распоряжаться личным бюджетом · И еще сотни интересных научно-обоснованных фактов Книга поможет мальчикам ...
Добавлено: 18 мая 2026 г.
Мама, папа, научите! Как управлять деньгами и не наделать ошибок : руководство по финансовому воспитанию для родителей приёмных детей
Андреева О. С., Просвещение, 2024.
В книге собраны рекомендации и практические советы приёмным родителям, с помощью которых можно сформировать у детей правильное отношение к денежным средствам, рассказывается, какими словами объяснять понятные взрослым истины относительно личных и семейных финансов ребёнку любого возраста. Одной из задач книги стала необходимость объяснения этого феномена — потребительского отношения приёмных детей к труду замещающих родителей, к ...
Добавлено: 18 мая 2026 г.
KMHCR: A Key-Controlled Signal-Domain Transformation for 5G IoT Security
Ronglin Z., Wei L., Jiahong C. и др., Journal of Signal Processing Systems 2026 Vol. 98 P. 1–15
Добавлено: 16 мая 2026 г.
Do thesis topics matter? How thesis topic characteristics relate to doctoral experience and self-confidence in defence
Павлюк Д. М., Higher Education 2026
The literature on doctoral students’ experience rarely examines the importance of thesis topic characteristics, even though this is one of the central decisions both at the start and throughout the doctoral journey. Although studies examine how students choose their thesis topics, there is little research on how different topic characteristics are linked to doctoral experience ...
Добавлено: 16 мая 2026 г.
DPN Verifier: A Toolkit for Faster Soundness Verification and Repair of Process Models with Data
Суворов Н. М., Proceedings of the Institute for System Programming of the RAS 2026 Vol. 38 No. 3(2) P. 49–66
Сети Петри с данными (DPN) являются расширением классических сетей Петри, позволяющим моделировать процессы, где данные влияют на поток управления, обеспечивая комплексное представление о поведении системы и возможность обнаружения точек отказа, которые в противном случае были бы скрыты. Одним из критериев корректности для моделей процессов является бездефектность. Модель процесса называется бездефектной, если она всегда корректно завершается ...
Добавлено: 16 мая 2026 г.
Опыт сотрудничества в сферах туризма и креативных индустрий на арктических территориях (на примере Мурманской области)
Желнина З. Ю., Сизова И. А., Корман А. М. и др., Креативные индустрии 2026 Т. 2 № 1 С. 42–62
Исследование опыта развития туризма и креативных индустрий, обеспечивающих самостоятельный трек социально-экономического развития арктических территорий, отражает запрос на выявление силы и свойств гуманитарных отраслей, раскрывающих свой потенциал в регионах, где ключевыми драйверами развития являются ресурсодобывающие отрасли. Предпроектное исследование и обзор источников показали, что до 2024 года туризм и креативные индустрии рассматривались в качестве активного ресурса развития ...
Добавлено: 15 мая 2026 г.
Differences and associations between students’ and teachers’ intelligence: evidence relies on a PISA-based cognitive assessment tool
Колачев Н. И., Kovaleva G., Educational Research and Evaluation 2026 P. 1–24
This study investigates the psychometric structure and school-level associations between cognitive abilities of teachers and students. Using a cross-sectional quantitative design, we administered a PISA-based cognitive assessment tool measuring reading, mathematics, science literacy, and global competence to 5,391 eighth-grade students and 2,385 teachers from 84 schools in a Russian region. Bifactor modeling, measurement invariance testing, ...
Добавлено: 15 мая 2026 г.
QGKM: A Quantum Fidelity-Based Graph Clustering Framework for Robust Data Pattern Recognition in Education Social Networks QGKM: A Quantum Fidelity-Based Graph Clustering Framework for Robust Data Pattern Recognition in Education Social Networks
Neal N. X., Weiqing L., Dacheng H. и др., Algorithms 2026 Vol. 19 No. 5 P. 1–22
Добавлено: 13 мая 2026 г.
ОТНОШЕНИЕ РОССИЯН К ЭВТАНАЗИИ: ОСОБЕННОСТИ, ДИНАМИКА И ФАКТОРЫ
Тихонова Н. Е., Социологическая наука и социальная практика 2025 Т. 14 № 1 С. 81–107
Учитывая актуализацию проблемы эвтаназии в мире в условиях нарастания тяжёлых раковых и генетических заболеваний, на данных Мониторинга ИС ФНИСЦ РАН 2024 г. и World Values Survey (2006 и 2017–2022 гг.) в статье показано, что в своём отношении к эвтаназии россияне делятся на две практически равные группы. Каждая из них имеет своё ядро и периферию, члены которой занимают колеблющуюся ...
Добавлено: 13 мая 2026 г.
Размышления о спасении тонущего ребёнка: эффективный альтруизм и социальные институты
Балашов Д. В., Антиномии 2026 Т. 26 № 1 С. 27–48
Движение эффективного альтруизма, набравшее популярность в начале XXI в., является одной из новых форм философии утилитаризма, оказавшей сильное влияние на англо-американскую философию в XIX–XX вв. Одним из отличительных признаков эффективного альтруизма является его практическая ориентированность. Движение позиционирует себя как то, что способно оказать влияние на окружающий мир и изменить его к лучшему. Для этого требуется ...
Добавлено: 13 мая 2026 г.
Proceedings of the 9th Student Research Workshop associated with the International Conference Recent Advances in Natural Language Processing
Velichkov B., Nikolova-Koleva I., Slavcheva M., Shumen: INCOMA Ltd, 2025.
Добавлено: 12 мая 2026 г.
Интегрированная среда моделирования для верификации и валидации программ управления подключенными и высокоавтоматизированными транспортными средствами
Степанянц В. Г., Долгов И. М., Хорошилов Г. С. и др., Труды Института системного программирования РАН 2026 Т. 38 № 3 С. 95–110
На рынок постепенно выходят высокоавтоматизированные и подключенные транспортные средства (ТС). В настоящее время предлагаются решения, позволяющие использовать эти технологии для совместного управления дорожным движением, что может значительно повысить его безопасность. В статье анализируются требования к интегрированной среде моделирования подключенных и высокоавтоматизированных ТС и совместной автоматизации управления дорожным движением с высокодетализированным учетом влияния окружающих объектов. Проанализированы ...
Добавлено: 12 мая 2026 г.
Персонализированная обратная связь на основе искусственного интеллекта: модель для магистратуры гуманитарного профиля
Подболотова М. И., Адамский А. И., Колачев Н. И. и др., Высшее образование в России 2026 Т. 35 № 4 С. 21–35
Цель статьи – представить и обосновать педагогическую модель персонализированной обратной связи на основе больших языковых моделей (LLM) для образовательного процесса в магистратуре гуманитарного профиля. Актуальность исследования обусловлена задачами цифровой трансформации высшего образования в РФ, обозначенными в указе Президента № 474 от 21.07.2021 «О национальных целях развития до 2030 года», и необходимостью внедрения гибких, адаптивных образовательных ...
Добавлено: 4 мая 2026 г.
Natural hazard database from Internet publications: text mining with a large language model
Деркачева А. А., Сакиркина М. А., Краев Г. Н. и др., /. 2026.
Добавлено: 28 апреля 2026 г.
Об идеологических предвзятостях генеративного ИИ: Российско-украинский конфликт в репрезентации ChatGPT
Байша О. А., Трофимов В. В., Российская школа связей с общественностью 2026 № 40 С. 171–191
Все большее количество ученых предупреждает об опасности воспроизведения генеративным ИИ социально-политических и идеологических предрассудков, впитанных моделями из текстов, на которых они обучались. Если, например, та или иная модель тренировалась на материалах западных СМИ, она может генерировать нарративы, воспроизводящие западноцентричный взгляд на мировые события. Это проявляется в репродукции определений глобальных проблем, нормализированных в западных гегемонистских дискурсах. ...
Добавлено: 21 апреля 2026 г.
Ising models on the hydrogen peroxide and other lattices
Qin X., Deng Y., Щур Л. Н. и др., / Series arXiv "math". 2026. No. 2603.02962.
Добавлено: 20 апреля 2026 г.
Algorithmic overlaps as thermodynamic variables: from local to cluster Monte Carlo dynamics in critical phenomena
Пиле Я. Э., Deng Y., Щур Л. Н., / Series arXiv "math". 2026. No. 2604.10254.
Добавлено: 20 апреля 2026 г.
Цифровые инструменты в развитии культурного интеллекта и иноязычных коммуникативных умений студентов-международников
Лукашенко А. Д., Непрерывное образование: XXI век 2026 Т. 14 № 1 С. 82–98
Аннотация: статья посвящена актуальной проблеме развития культурного интеллекта (CQ) у студентов-международников в процессе обучения иностранному языку. В условиях глобализа ции и цифровизации CQ рассматривается не как факультативный мягкий навык, а как базовая профессиональная компетенция, необходимая для эффективного взаимодействия в поликультур ной среде. Целью исследования являются теоретическое обоснование и разработка методиче ских рекомендаций по интеграции целенаправленного ...
Добавлено: 5 апреля 2026 г.
Using predefined vector systems to speed up neural network multimillion class classification
Gabdullin N., Андросов И. А., / Series Computer Science "arxiv.org". 2026.
Добавлено: 2 апреля 2026 г.
  • О ВЫШКЕ
  • Цифры и факты
  • Руководство и структура
  • Устойчивое развитие в НИУ ВШЭ
  • Преподаватели и сотрудники
  • Корпуса и общежития
  • Закупки
  • Обращения граждан в НИУ ВШЭ
  • Фонд целевого капитала
  • Противодействие коррупции
  • Сведения о доходах, расходах, об имуществе и обязательствах имущественного характера
  • Сведения об образовательной организации
  • Людям с ограниченными возможностями здоровья
  • Единая платежная страница
  • Работа в Вышке
  • ОБРАЗОВАНИЕ
  • Лицей
  • Довузовская подготовка
  • Олимпиады
  • Прием в бакалавриат
  • Вышка+
  • Прием в магистратуру
  • Аспирантура
  • Дополнительное образование
  • Центр развития карьеры
  • Бизнес-инкубатор ВШЭ
  • Образовательные партнерства
  • Обратная связь и взаимодействие с получателями услуг
  • НАУКА
  • Научные подразделения
  • Исследовательские проекты
  • Мониторинги
  • Диссертационные советы
  • Защиты диссертаций
  • Академическое развитие
  • Конкурсы и гранты
  • Внешние научно-информационные ресурсы
  • РЕСУРСЫ
  • Библиотека
  • Издательский дом ВШЭ
  • Книжный магазин «БукВышка»
  • Типография
  • Медиацентр
  • Журналы ВШЭ
  • Публикации
  • http://www.minobrnauki.gov.ru/
    Министерство науки и высшего образования РФ
  • https://edu.gov.ru/
    Министерство просвещения РФ
  • http://www.edu.ru
    Федеральный портал «Российское образование»
  • https://elearning.hse.ru/mooc
    Массовые открытые онлайн-курсы
  • НИУ ВШЭ1993–2026
  • Адреса и контакты
  • Условия использования материалов
  • Политика конфиденциальности
  • Правила применения рекомендательных технологий в НИУ ВШЭ
  • Карта сайта
Редактору