Почему ArrowModel?

Agile Scoring



Почему ArrowModel?



Почему ArrowModel?

Термин «скоринг» используется для обозначения процесса создания и использования моделей, предсказывающих важное для бизнеса редкое событие. В кредитовании это может быть невозврат или просрочка, в маркетинге - ответ на рекламное предложение и т.д.

Существует много способов создания подобных моделей. Можно даже обойтись ручкой, бумагой и калькулятором, но большинство аналитиков всё же предпочитают использовать программные продукты. Это может быть статистический пакет общего назначения (SAS, SPSS или R), специализированное программное обеспечение (KXEN, PREDIGY или SAS Enterprise Miner) или набор программ собственной разработки.

В большинстве практических ситуаций ArrowModel позволит построить, протестировать, внедрить и отслеживать скоринговые модели с меньшими затратами сил и времени, и вот почему.

Статистические пакеты общего назначения

Зачастую модели создаются с помощью программного обеспечения общего назначения, например, SAS/STAT, SPSS или R. Для ускорения повторяющихся действий аналитики используют свои собственные процедуры или макро.

Этот подход очень гибок и позволяет строить модели любой степени сложности, но трудоёмок, требует глубокого знания программирования на языке статпакета, а также плохо масштабируется. Разобраться в модели, созданной другим специалистом (или даже в своей модели годичной давности) очень непросто, поскольку при этом использованы многочисленные разрозненные программы и файлы данных.

ArrowModel в свою очередь сохраняет всё, имеющее отношение к модели, в одном файле, и обеспечивает стандартную форму представления скорингового проекта. В отличие от R не требуется, чтобы данные находились в оперативной памяти, что позволяет работать с большими объёмами данных. Размер данных в ArrowModel ограничен только дисковым и адресным пространством. С практической точки зрения это означает, что единственное ограничение - это время.

ArrowModel позволяет обойтись без написания единой строчки кода. В более сложных случаях, когда без программирования не обойтись, преобразования осуществляются с помощью стандартного и широко известного языка SQL.

Решения уровня предприятия

Системы типа KXEN Analytic Framework, Intelligent Results PREDIGY или SAS Enterprise Miner нацелены прежде всего на удовлетворение всех аналитических нужд больших организаций. Они построены по архитектуре клиент-сервер и требуют значительных затрат на поддержку инфраструктуры.

ArrowModel предназначена для решения одной задачи. Это позволило оптимизировать выбор инструментов, упростить пользовательский интерфейс и сжать цикл разработки. Например, базовым алгоритмом в ArrowModel служит логистическая регрессия. Этот выбор продиктован тем, что в большинстве практических задач классификации он работает не хуже, а зачастую лучше, чем другие модели [2]. Отказ от перебора различных моделей в пользу концентрации на поиске оптимальных параметров совпадает с точкой зрения Френка Харрела (Frank Harrell), который считает, что «неправильно выбранная, но хорошо подогнанная модель лучше, чем правильно выбранная, но плохо подогнанная» [1].

ArrowModel выполняется на машине пользователя и не требует установки на сервере или связи с сетью. Всё, что нужно для начала работы, это исходные данные в виде CSV файла на локальном или сетевом диске.

Набор программ собственной разработки

Компании зачастую полагаются на скоринговые программы собственной разработки. Такой подход обоснован, если разработка программного обеспечения и скоринг является одной из основных областей деятельности компании. В противном случае внутренние разработки скорее всего представляют собой сложную в использовании комбинацию баз Microsoft Access, таблиц Excel, макросов VBA, и программ на скриптовых языках.

Программа ArrowModel написана на языке C++ с использованием новейших инструментов разработки программного обеспечения. Использование компилированного языка в критических областях позволяет достичь большей скорости по сравнению с интрепретируемыми языками. ArrowModel является коммерческим продуктом и проходит тщательную проверку качества.

Ссылки

[1] Frank E. Harrell, Jr. Regression Modeling Strategies. Springer, 2001

[2] Paul Komarek. Logistic regression for fast, accurate, and parameter free data mining.