Данные НИС: работа с массивом данных
Сфера здравоохранения заинтересована в получении большего количества данных о влиянии существующих на рынке медицинских препаратов в реальной клинической практике, что приводит к ежегодно возрастающей популярности неинтервенционных исследований (non-interventional studies – NIS), т.е. исследований «без вмешательства». Вслед за прогрессом информационных технологий в сфере клинических исследований (КИ), неумолимо следует увеличение объема собираемой информации в неинтервенционных исследованиях, что, в свою очередь, ведет к усложнению процессов сбора и анализа получаемых в ходе исследований данных, а значит и к потребности в расширении компетенций специалистов, работающих с данными КИ.
Очевидно, что разработка корректной и понятной структуры для сбора данных крайне важна в данного рода исследованиях, о чем более подробно описано в нашей прошлой публикации ДАННЫЕ НИС: ПОДХОДЫ К ОРГАНИЗАЦИИ СБОРА ДАННЫХ. Однако все исследования, независимо от того, насколько хорошо они разработаны и реализованы, имеют дело с ошибками при вводе данных и их влиянием на результаты исследований. Эта проблема и её преодоление характерно как для экспериментальных, так и для наблюдательных исследований. Поэтому при планировании процессов управления данными NIS не менее важно тщательно разработать подход к работе с уже полученными данными.
Данные, получаемые в ходе неинтервенционных исследований зачастую отличаются от данных классических клинических исследований своей спецификой:
- собираемые данные зачастую сложнее и объемнее;
- существуют различия в рутинной клинический практике между различными исследовательскими центрами, а также различия в ведении первичной документации;
- как правило продолжительность NIS существенно возрастает по сравнению с классическими клиническими исследованиями.
Также зачастую в NIS минимизировано количество мониторинговых визитов в исследовательские центры и, соответственно, снижается (или вовсе отсутствует) объем сверки данных, введенных в ИРК, с первичной документацией. Это возлагает еще большую ответственность на членов проектной команды, участвующих в дистанционной проверке данных, и приводит к еще более острой необходимости в тщательном централизованном мониторинге со стороны специалистов по управлению данными.
Существуют различные подходы поиска некорректных или сомнительных данных, требующих уточнения и коррекции, такие как:
- Поиск пропущенных значений (missing values).
Является, пожалуй, самым базовым методом работы с полученными данными. Этот подход особенно актуален при работе с данными неинтервенционных исследований, поскольку специфика NIS предполагает возможность наличия значительного объема отсутствующей информации, особенно учитывая возможность ретроспективного сбора данных о лечении пациентов.
Однако, необходимо помнить, что база данных не содержит в себе правил показа-скрытия созависимых переменных, соответственно, при поиске пропущенных значений необходимо учитывать динамическую структуру форм эИРК. - Работа с логикой взаимодействия переменных.
Как в окружающем мире данные всегда взаимосвязаны между собой, так и в базе данных переменные имеют ту или иную логику взаимодействия и созависимости. Для разработки логических тестов для проверки данных хорошей практикой считается привлечение специалистов с компетенциями в медицинской стороне вопроса. - Статистические методы для поиска отклонений в данных.
В современной практике области управления данными широко применяются различные статистические методы для работы с массивом данных. Зачастую поиск выбросов в данных может указать на присутствие отклонений там, где стандартные валидационные проверки на диапазоны значений не «замечают» ошибки. - Графические методы работы с данными.
Будучи не самыми популярными методами проверки данных, графики и визуализации данных являются недооцененными инструментами при проверке данных, с помощью которых можно не только выявить выбросы данных, но и паттерны распределения количественных переменных и кластерные скопления категориальных переменных.
Несмотря на потенциал методов работы с данными КИ, на сегодняшний момент не существует четких рекомендаций по методологиям проверки данных КИ, в т.ч. и неинтервенционных, а также единых стандартов оценки качества данных, что также подчеркивается в GCDMP.
Также хочется заметить, что чистка данных в неинтервенционных исследованиях до сих пор является бурно обсуждаемой темой и долгое время рассматривалась как подозрительная деятельность, граничащая с манипулированием данными. Опасения по поводу того, где провести грань между манипулированием данными и необходимость в редактировании данных, вполне обоснованы. Поэтому крайне важны не только тщательная разработка плана проверки базы данных и составлений запросов на уточнение данных, но и его рассмотрение и одобрение другими членами проектной команды, дабы минимизировать возможность несознательного изменения специфики данных через самоочевидным исправления или манипуляции ввода данных через query. Необходимо помнить, что целью NIS является сбор информации из реального мира, которая может отличаться от ожидаемых данных, однако необходимость в получении именно такого рода информации является истоком появления неинтервенционных исследований.
Источники:
Society for Clinical Data Management. Good clinical data management practices, 2013.
Van den Broeck J, Cunningham SA, Eeckels R, Herbst K. Data cleaning: detecting, diagnosing, and editing data abnormalities. PLoS Med. 2005 Oct; 2(10).