数据分析的核心:建模

栏目: 数据库 · 发布时间: 5年前

内容简介:为什么我们要系统的研究建模过程?我们去扩展一个学科边界的两条路径,去研究底层概念去扩展应用领域,我们今天从底层入手。为什么我们不直接认识世界,而是要通过模型?

为什么我们要系统的研究建模过程?我们去扩展一个学科边界的两条路径,去研究底层概念去扩展应用领域,我们今天从底层入手。

数据分析的核心:建模

为什么我们要通过模型认识世界?

为什么我们不直接认识世界,而是要通过模型?

生命有限,时间有限,我们不可能面面俱到的去考察世界的方方面面,我们必然需要作出选择,去找到关键,模型就是一系列积累了前人的认识和描述世界智慧的经验.。生活中我们,都在自觉或者不自觉的使用模型。

举个栗子:我们马上要期末了,经过认真的学习,我们考了80分,自我感觉不错啊。都80分了,应该算是个优了。但是实际上可能存在这样一些情况:满分是200分……全班平均分90分……

这个过程中,我们无形之中使用了一个模型叫做比较:量纲一致,有基准的情况下,a>b才有意义。 围绕这个简单的模型,各个学科发展出了庞杂的应用,比如:经济学中的成本/金融学中的理想收益基准等等。

为什么我们要系统的研究建模过程?我们去扩展一个学科边界的俩条路径,去研究底层概念去扩展应用领域。我们今天从底层入手。

1. 模型的概念

数据分析的核心:建模 在日常话语体系中,我们往往存在这样的认知:建模=数学=科学=高大上=和我无关。

为了打破大家对于模型先天的一些偏见,我们先从本质上看模型到底是什么?模型其实就是抽象空间的一套演绎体系。

我们先看一下什么是抽象空间?

抽象空间是相对于现实空间而言的,现实中我们面对的世界往往是无穷无尽的,世界上有无穷的对象,每个对象有无穷的维度等着我们去认知,面对这样的世界,我们是没有办法直接去认识,我们需要主观的先建立一套选择标准,再选择一些特定对象,选择一些特定的维度,特定的过程,这个选择构成的集合就叫做抽象空间。

有些抽象空间是杂乱无章,互相矛盾的,比如:我们大多数普通人的思维世界其实就处在这样一个状态,大多数时候,我们不知道自己的信仰是什么,不知道自己世界观是什么,也不知道自己的价值观是什么,个人选择受环境的干扰特别大。

然而,还有一类抽象空间,里面的假设非常坚固,或者反映了人类社会的普遍诉求,比如:公平/正义/自由等,或者反映了科学共同体的基本共识,比如:能量守恒;或者是完全建构在抽象世界里的描述,比如:俩点之间直线最短。演绎论证非常严密,这一类抽象空间构成了人类智慧的结晶。

我们这里的模型,特指后者,一些凝聚了人类发展过程中智慧结晶的抽象空间描述。

知道了什么是模型,我们再来看看什么是建模过程? 建模的本质其实是 现实世界和抽象空间的映射。

数据分析的核心:建模

在数学里,映射是个术语,指两个元素的集之间元素相互“对应”的关系。从这个定义里就可以看出,建模其实不存在绝对的对错,建模的方式,因为映射空间的不同,也可能存在千万种,但是我们如何选择建模方式呢?毕竟我们不能挨个建一遍吧?

我们评价一个模型的好坏可以从俩方面展开:

  1. 模型是否反映了对象的重要特征;
  2. 模型和现实的拟合情况(解释/预测/复现)。

最后需要指出的是,任何模型都是一部“有色眼镜”,它在帮我们看清一些东西的时候,同时也遮蔽了我们对另外一些对象的观察。

所有模型都是错的,但是有些模型是有用的。

2. 数学建模的过程

数据分析的建模过程中,大多数时候,我们还是选择数学空间作为我们的映射对象。数学建模是应用学科的核心内容,任何一门科学都是在数学的框架下表达自己解决问题的思想和方法,并和别的专业或者方向分享这些思想和方法。任何一门学科,只有当其使用数学时,才是好的精确的学科。

分析实际问题中的各种因素,使用变量表示;分析这些变量之间的关系,哪些是相互依存的,哪些是独立的,他们具有什么样的关系;根据实际问题选用合适的数学框架(典型的有优化问题,配置问题等等),并具体的应用问题在这个数学框架下表出;选用合适的算法求解数学框架下表出的问题; 使用计算结果解释实际问题,并且分析结果。

(1)模型假设

根据对象的特征和建模目的,对问题进行必要的、合理的简化,用精确的语言作出假设,是建模至关重要的一步。如果对问题的所有因素一概考虑,无疑是一种有勇气但方法欠佳的行为。

所以高超的建模者能充分发挥想象力、洞察力和判断力,善于辨别主次,而且为了使处理方法简单,应尽量使问题线性化、均匀化。

(2)模型选择

根据所作的假设分析对象的因果关系,利用对象的内在规律和适当的数学工具,构造各个量间的等式关系或其它数学结构。这时,我们便会进入一个广阔的应用数学天地,这里在高数、概率老人的膝下,有许多可爱的孩子们,他们是图论、排队论、线性规划、对策论等许多许多,真是泱泱大国,别有洞天。

不过我们应当牢记,建立数学模型是为了让更多的人明了并能加以应用,因此 工具 愈简单愈有价值。

(3)模型求解

可以采用解方程、画图形、证明定理、逻辑运算、数值运算等各种传统的和近代的数学方法,特别是计算机技术。一道实际问题的解决往往需要纷繁的计算,许多时候还得将系统运行情况用计算机模拟出来,因此编程和熟悉数学软件包能力便举足轻重。

(4)模型分析

对模型解答进行数学上的分析,“横看成岭侧成峰,远近高低各不同”。能否对模型结果作出细致精当的分析,决定了你的模型能否达到更高的档次。还要记住,不论那种情况都需进行误差分析,数据稳定性分析。

(5)模型应用

把数学上分析的结果翻译回到现实问题,并用实际的现象、数据与之比较,检验模型的合理性和适用性。

(6)模型评价

取决于问题的性质和建模的目的。

3. 模型空间概述

模型的分类标准,也可以表达成模型有几方面的特征.这里做一个简单的列举,下次会结合具体案例对每类模型做一个简单综述:

数据分析的核心:建模

总结

所有模型都是错的,但是有些模型是有用的。

数据分析的核心:建模

作者:小祁爱数据,公众号:小祁同学的成长故事

本文由 @小祁爱数据 原创发布于人人都是产品经理。未经许可,禁止转载

题图来自Unsplash,基于CC0协议


以上所述就是小编给大家介绍的《数据分析的核心:建模》,希望对大家有所帮助,如果大家有任何疑问请给我留言,小编会及时回复大家的。在此也非常感谢大家对 码农网 的支持!

查看所有标签

猜你喜欢:

本站部分资源来源于网络,本站转载出于传递更多信息之目的,版权归原作者或者来源机构所有,如转载稿涉及版权问题,请联系我们

暗网

暗网

杰米·巴特利特 / 刘丹丹 / 北京时代华文书局 / 2018-7 / 59.00

全面深入揭秘“黑暗版淘宝”暗网的幕后世界和操纵者 现实中所有的罪恶,在暗网中,都是明码标价的商品。 暗杀、色情、恋童癖、比特币犯罪、毒品交易…… TED演讲、谷歌特邀专家、英国智库网络专家杰米•巴特利特代表作! 1、 被大家戏称为“黑暗版淘宝”的暗网究竟是什么?微信猎奇 文不能告诉你的真相都在这里了! 2、 因章莹颖一案、Facebook信息泄露危机而被国人所知的暗网......一起来看看 《暗网》 这本书的介绍吧!

图片转BASE64编码
图片转BASE64编码

在线图片转Base64编码工具

XML、JSON 在线转换
XML、JSON 在线转换

在线XML、JSON转换工具

UNIX 时间戳转换
UNIX 时间戳转换

UNIX 时间戳转换