2022 Problem D

Problem:Data Paralysis? Use Our Analysis!

题目背景

许多公司将数据视为战略资产,但承认很难从该资产中获取价值。公司需要建立一个集成的数据和分析系统(\(\mathtt{D\&A}\)),以做出与三个关键组成部分相关的正确决策:People、Technology和Process。ICM公司经营着一个大型海港,希望您来衡量他们当前\(\mathtt{D\&A}\)系统的成熟度和能力,并提供可靠的计划来优化他们的\(\mathtt{D\&A}\)系统。

提供的数据

根据公司规定,ICM公司不能直接提供具体的数据,而只能提供其运营和定期处理的数据类型的一般性描述。

问题

  1. 建立一个衡量ICM公司当前\(\mathtt{D\&A}\)系统成熟度水平的模型,包括衡量\(\mathtt{D\&A}\)中三个部分人员、技术和过程是否成功的指标。

  2. 在ICM公司使用您的模型确定\(\mathtt{D\&A}\)系统成熟度水平后,向其展示如何使用模型来对系统进行修改。

  3. ICM公司应当使用什么方法来衡量其\(\mathtt{D\&A}\)系统的效率?

  4. 展示您的模型应该如何应用于更大型或小型的海港;

    分析您的成熟度指标可以如何应用于其他行业。特别地,一个卡车货运公司可以使用您提出的成熟度指标吗?

    如果ICM公司的客户(例如卡车货运公司)也使用您提出的指标,这对于ICM公司自己有何好处?

O奖论文结构

\[\mathtt{Introduction} \rightarrow \mathtt{\mathtt{Assumptions\space and\space Notations}} \rightarrow \mathtt{Task\space1,2,3,4} \rightarrow \mathtt{Conclusion}\]

Paper #2218897

Towards the Evaluation and Analysis of the D&A System from an Innovative Perspective

  1. Maturity Evaluation

    针对三个方面(PeopleTechnologyProcess)分别选取了一些评价指标,然后使用\(\mathtt{AHP}\)算法来计算各个指标的权重。

  2. Suggestions Based on the Maturity Evaluation

    先将1中得到的所有子类构建成为一个相互作用的网络。例如,Education Level会影响Ability,从而就从前者向后者连一条边。然后可以使用PageRank算法计算这些子类的重要程度。

    PageRank最初是Google用来对网页重要性进行排序的算法,基本假设是越重要的网页往往更多地被其他页面引用。不过\(\mathtt{AHP}\)算法得到了各个子类的权重,似乎已经可以判断出重要程度了?

    从三个方面分别提出建议,采用Q-A的形式(这些问题来源于题干),例如:

    Q:是否需要对员工进行训练?(People)

    A:当满足以下两种条件之一时,需要对员工进行训练

    • 高的周转率(high turnover rate)并且有充足资金
    • 员工能力较低(low ability)且有充足资金
  3. The Effectiveness Protocols of the \(\mathtt{D\&A}\) System

    论文中从三个方面来衡量效率。

    • 数据的存储与处理效率。
    • 数据库中数据的级联程度(级联一般可以认为是两个数据的关联程度)
    • 数据库中数据的级联速度(当对数据进行更新时,与其级联的数据需要同步进行更新)

    取三者评价指标的平均值作为该\(\mathtt{D\&A}\)系统的效率。

  4. The Model Extension and the Benefit to Corporation

    论文指出通过增加或修改指标,可以很容易将模型应用到别的行业中。

    并且如果客户和自己使用同样的指标,可以提高效率(关于客户是否会使用同样的指标写了一堆,其实就是在说当采用同样指标带来的有利之处大于成本时才会采用)。

Paper #2215444

How Can We Realize the Full Potential of Our Data?

  1. DAMM Based on AHP-EWM

    Ground Theory:扎根理论,指从实践中发展理论(提取指标)。论文中通过文献调研选取了一系列指标,也是分成三个方面PeopleTechnology以及Process。在此基础上,论文中说“根据题干中ICM公司对于其目前\(\mathtt{D\&A}\)系统的描述,推测出了当前\(\mathtt{D\&A}\)系统的一系列评价指标”,然后将其与自己选取的对比(发现少了一些指标),于是得出目前的\(\mathtt{D\&A}\)系统还不完善。

    得出指标后,通过\(\mathtt{AHP}\)和熵选法计算各个指标的权重(论文中指出,\(\mathtt{AHP}\)是“主观的”,熵选法是客观的,于是需要将两者结合)。

  2. Linear programming and System Dynamics

    1中的判断成熟度机制实际上就是对应指标的得分与权重的乘积之和。

    \[W=\sum_{i}w_iq_i\]

    其中,\(w_i\)表示权重,\(q_i\)表示得分。优化后,假设成熟度变为:

    \[W=\sum_{i}w_iq_i(1+\eta_i)\]

    \(\eta_i\)即为在第\(i\)个指标上的提升。同时,还需要满足约束:

    \[\sum_{i}q_i\eta_ib_i\leq\Delta\]

    \(b_i\)表示每单位提升所对应的成本,这样就把对原系统的优化问题变成了约束条件下求最值的问题。

  3. System Effectiveness Measure Model Based on Apriori

    首先将各指标离散化,例如,将成熟程度分成五级\(M_1\)~\(M_5\)。接着采用Association Rule Learning的方法,取出一系列用于判断效率的规则,例如\(B_3,C_4\Rightarrow M_5\),表示当\(\mathtt{D\&A}\)系统的\(B\)指标处于三级且\(C\)指标处于四级时,该系统有很大可能成熟度处于五级,也即效率高。

    最后得出的结论是,当\(\mathtt{D\&A}\)系统在peopletechnologyprocess上分别达到4、3、4级别时,该系统的效率较高。

  4. Sensitivity Analysis and Model Promotion

    论文把敏感性分析的部分放到这一模块,大概是觉得对模型的可移植性的研究类似于对鲁棒性的探讨。

    主要提到了两点:

    • 由于模型并非完全建立在底层的数据之上,其评价指标是基于宏观的peopletechnologyprocess这三个方面,因此对于不同的系统,修改1中的权重和指标即可。
    • 如果客户也选用本模型,ICM公司可以更加方便地获知客户的情况,以采取不同的策略。

总结

这道题的背景和题意不太好理解,但是题目的结构很清晰,因此O奖论文的结构大都是四道题分成四个部分进行建模求解。每个部分(每道题)基本上都会提出新的算法/模型(虽然有几个感觉有点牵强)。

方法上,这道题的主体实际上就是第一题里的模型,也即找指标\(\rightarrow\)求权重\(\rightarrow\)分析,大多数用的都是\(\mathtt{AHP}\)算法,比较套路。后面题目的求解还是需要一些文字功底的。第三题题目中对Effectiveness的定义有些不清楚,所以几篇论文在这一部分的差异非常大,其他部分都比较类似。