2022 Problem D
Problem:Data Paralysis? Use Our Analysis!
题目背景
许多公司将数据视为战略资产,但承认很难从该资产中获取价值。公司需要建立一个集成的数据和分析系统(\(\mathtt{D\&A}\)),以做出与三个关键组成部分相关的正确决策:People、Technology和Process。ICM公司经营着一个大型海港,希望您来衡量他们当前\(\mathtt{D\&A}\)系统的成熟度和能力,并提供可靠的计划来优化他们的\(\mathtt{D\&A}\)系统。
提供的数据
根据公司规定,ICM公司不能直接提供具体的数据,而只能提供其运营和定期处理的数据类型的一般性描述。
问题
-
建立一个衡量ICM公司当前\(\mathtt{D\&A}\)系统成熟度水平的模型,包括衡量\(\mathtt{D\&A}\)中三个部分人员、技术和过程是否成功的指标。
-
在ICM公司使用您的模型确定\(\mathtt{D\&A}\)系统成熟度水平后,向其展示如何使用模型来对系统进行修改。
-
ICM公司应当使用什么方法来衡量其\(\mathtt{D\&A}\)系统的效率?
-
展示您的模型应该如何应用于更大型或小型的海港;
分析您的成熟度指标可以如何应用于其他行业。特别地,一个卡车货运公司可以使用您提出的成熟度指标吗?
如果ICM公司的客户(例如卡车货运公司)也使用您提出的指标,这对于ICM公司自己有何好处?
O奖论文结构
\[\mathtt{Introduction} \rightarrow \mathtt{\mathtt{Assumptions\space and\space Notations}} \rightarrow \mathtt{Task\space1,2,3,4} \rightarrow \mathtt{Conclusion}\]Paper #2218897
Towards the Evaluation and Analysis of the D&A System from an Innovative Perspective
-
Maturity Evaluation
针对三个方面(People、Technology、Process)分别选取了一些评价指标,然后使用\(\mathtt{AHP}\)算法来计算各个指标的权重。
-
Suggestions Based on the Maturity Evaluation
先将1中得到的所有子类构建成为一个相互作用的网络。例如,Education Level会影响Ability,从而就从前者向后者连一条边。然后可以使用PageRank算法计算这些子类的重要程度。
PageRank最初是Google用来对网页重要性进行排序的算法,基本假设是越重要的网页往往更多地被其他页面引用。不过\(\mathtt{AHP}\)算法得到了各个子类的权重,似乎已经可以判断出重要程度了?
从三个方面分别提出建议,采用Q-A的形式(这些问题来源于题干),例如:
Q:是否需要对员工进行训练?(People)
A:当满足以下两种条件之一时,需要对员工进行训练
- 高的周转率(high turnover rate)并且有充足资金
- 员工能力较低(low ability)且有充足资金
-
The Effectiveness Protocols of the \(\mathtt{D\&A}\) System
论文中从三个方面来衡量效率。
- 数据的存储与处理效率。
- 数据库中数据的级联程度(级联一般可以认为是两个数据的关联程度)
- 数据库中数据的级联速度(当对数据进行更新时,与其级联的数据需要同步进行更新)
取三者评价指标的平均值作为该\(\mathtt{D\&A}\)系统的效率。
-
The Model Extension and the Benefit to Corporation
论文指出通过增加或修改指标,可以很容易将模型应用到别的行业中。
并且如果客户和自己使用同样的指标,可以提高效率(关于客户是否会使用同样的指标写了一堆,其实就是在说当采用同样指标带来的有利之处大于成本时才会采用)。
Paper #2215444
How Can We Realize the Full Potential of Our Data?
-
DAMM Based on AHP-EWM
Ground Theory:扎根理论,指从实践中发展理论(提取指标)。论文中通过文献调研选取了一系列指标,也是分成三个方面People,Technology以及Process。在此基础上,论文中说“根据题干中ICM公司对于其目前\(\mathtt{D\&A}\)系统的描述,推测出了当前\(\mathtt{D\&A}\)系统的一系列评价指标”,然后将其与自己选取的对比(发现少了一些指标),于是得出目前的\(\mathtt{D\&A}\)系统还不完善。
得出指标后,通过\(\mathtt{AHP}\)和熵选法计算各个指标的权重(论文中指出,\(\mathtt{AHP}\)是“主观的”,熵选法是客观的,于是需要将两者结合)。
-
Linear programming and System Dynamics
1中的判断成熟度机制实际上就是对应指标的得分与权重的乘积之和。
\[W=\sum_{i}w_iq_i\]其中,\(w_i\)表示权重,\(q_i\)表示得分。优化后,假设成熟度变为:
\[W=\sum_{i}w_iq_i(1+\eta_i)\]\(\eta_i\)即为在第\(i\)个指标上的提升。同时,还需要满足约束:
\[\sum_{i}q_i\eta_ib_i\leq\Delta\]\(b_i\)表示每单位提升所对应的成本,这样就把对原系统的优化问题变成了约束条件下求最值的问题。
-
System Effectiveness Measure Model Based on Apriori
首先将各指标离散化,例如,将成熟程度分成五级\(M_1\)~\(M_5\)。接着采用Association Rule Learning的方法,取出一系列用于判断效率的规则,例如\(B_3,C_4\Rightarrow M_5\),表示当\(\mathtt{D\&A}\)系统的\(B\)指标处于三级且\(C\)指标处于四级时,该系统有很大可能成熟度处于五级,也即效率高。
最后得出的结论是,当\(\mathtt{D\&A}\)系统在people,technology、process上分别达到4、3、4级别时,该系统的效率较高。
-
Sensitivity Analysis and Model Promotion
论文把敏感性分析的部分放到这一模块,大概是觉得对模型的可移植性的研究类似于对鲁棒性的探讨。
主要提到了两点:
- 由于模型并非完全建立在底层的数据之上,其评价指标是基于宏观的people,technology和process这三个方面,因此对于不同的系统,修改1中的权重和指标即可。
- 如果客户也选用本模型,ICM公司可以更加方便地获知客户的情况,以采取不同的策略。
总结
这道题的背景和题意不太好理解,但是题目的结构很清晰,因此O奖论文的结构大都是四道题分成四个部分进行建模求解。每个部分(每道题)基本上都会提出新的算法/模型(虽然有几个感觉有点牵强)。
方法上,这道题的主体实际上就是第一题里的模型,也即找指标\(\rightarrow\)求权重\(\rightarrow\)分析,大多数用的都是\(\mathtt{AHP}\)算法,比较套路。后面题目的求解还是需要一些文字功底的。第三题题目中对Effectiveness的定义有些不清楚,所以几篇论文在这一部分的差异非常大,其他部分都比较类似。