内容简介
颗粒材料在岩土工程、水利工程、道路桥梁工程及化工工程等领域广泛应用。颗粒材料由于具有离散性、多尺度和能量耗散机制,表现出远比传统固体、流体材料更复杂的物理力学特性。从结构决定性能的力学视角出发,寻找解密颗粒材料力学性质的关键信息已成为学界共识。由于颗粒材料属于典型的无序介质,几乎每个颗粒的局部环境都是*一无二的,颗粒材料内部蕴含着海量的结构信息。机器学习在大数据分析、信息分类、复杂系统预测等方面有着天然的优势,为颗粒材料多尺度力学特性研究提供了新方法。《颗粒材料宏细观力学的机器学习应用》以机器学习为工具,系统研究决定颗粒材料力学性能的关键指标,建立颗粒结构与性能间的映射关系,为人工智能时代的颗粒材料研究开拓新视野。
目录
目录
第1章 机器学习方法在颗粒材料中的应用 1
1.1 机器学习方法简介 2
1.1.1 决策树 3
1.1.2 随机森林 5
1.1.3 梯度提升决策树 6
1.1.4 极端梯度提升 6
1.1.5 k-means 7
1.1.6 反向传播神经网络 8
1.1.7 循环神经网络 9
1.1.8 支持向量机 9
1.1.9 超参数优化 11
1.1.10 模型评估方法 12
1.2 机器学习方法在颗粒材料中的应用概述 13
1.2.1 微观结构与力学性能的关联 14
1.2.2 颗粒材料宏观本构建模 15
1.3 本章小结 16
参考文献 16
第2章 颗粒材料试验研究方法 19
2.1 颗粒材料物理试验方法 20
2.1.1 浅层探测试验方法 20
2.1.2 内部探测试验方法 25
2.2 颗粒材料数值仿真方法 33
2.2.1 离散单元法(DEM) 34
2.2.2 连续-离散单元法(FDEM) 41
2.3 本章小结 52
参考文献 53
第3章 机器学习预测颗粒材料的结晶演化 57
3.1 循环剪切数值试验 58
3.1.1 结晶演化现象 58
3.1.2 试验方案 59
3.1.3 试样制备 60
3.1.4 摩擦系数的选取 61
3.1.5 宏观演化过程 62
3.2 局部结构与*密堆积演化的关系 65
3.2.1 特征选择 65
3.2.2 模型训练方法 67
3.2.3 模型验证与对比 69
3.2.4 机器学习预测效果 71
3.3 局部结构对*密堆积演化的影响机制 74
3.3.1 特征重要性分析 74
3.3.2 特征依赖性分析 77
3.3.3 结晶相前驱体颗粒的空间分布 80
3.4 本章小结 81
参考文献 82
第4章 微观结构“编码”塑性变形倾向 85
4.1 常规三轴数值试验 86
4.1.1 试验方案 86
4.1.2 试样制备 86
4.1.3 宏观力学响应 87
4.1.4 边界效应 88
4.2 微观塑性行为的表征与量化 89
4.3 局部结构-微观塑性行为的关系 92
4.3.1 机器学习模型 92
4.3.2 预测时域的选择 93
4.3.3 “软度”因子的确定 95
4.3.4 局部结构-力学特性关系 97
4.4 摩擦系数对预测效果的影响 101
4.5 本章小结 105
参考文献 105
第5章 初始微观结构预测塑性演化 109
5.1 颗粒材料三轴剪切试验 110
5.1.1 数值试验 110
5.1.2 宏观应力变形 111
5.2 颗粒材料结构表征量化 111
5.2.1 短程结构指标 112
5.2.2 中程结构指标 112
5.2.3 细观组构模型 113
5.3 微观塑性表征 116
5.4 微观塑性的结构起源 117
5.5 微观塑性逾渗演化 124
5.6 本章小结 131
参考文献 132
第6章 颗粒形态与颗粒破碎强度的关系 135
6.1 颗粒三维扫描 136
6.2 颗粒形状统计分析 138
6.2.1 形状参数获取 138
6.2.2 聚类分析 141
6.3 单颗粒单轴压缩试验数值模拟 144
6.3.1 数值试样及材料参数 144
6.3.2 破碎强度Weibull分布 145
6.4 机器学习回归分析 147
6.4.1 颗粒稳定性分析 147
6.4.2 机器学习模型训练 148
6.4.3 机器学习模型解释 149
6.5 颗粒碎片形态特征统计分析 152
6.5.1 基于颗粒形态的颗粒分类 153
6.5.2 FDEM数值模拟 156
6.5.3 统计分析 158
6.6 本章小结 164
参考文献 165
第7章 颗粒材料宏观力学行为预测 169
7.1 机器学习预测小应变刚度 170
7.1.1 建模过程 170
7.1.2 模型预测能力对比 171
7.1.3 机器学习模型解释 173
7.2 局部结构建模的扩展验证 175
7.3 本章小结 179
参考文献 179
第8章 总结与展望 181
8.1 总结 182
8.2 展望 183
试读
第1章机器学习方法在颗粒村料中的应用
自20世纪80年代至今,人工智能(artificial intelligence,AI)快速发展,为生产力的提升提供了变革的动力。机器学习是人工智能的重要分支,是一门研究计算机通过使用数据和算法,模拟人类学习活动,以获取新的知识与技能,不断改善自身性能的学科。近年来,随着数据可用性、算力和算法的快速发展,机器学习巳经被应用到生物、化学、材料科学等多个学科并取得突破性进展。颗粒材料等整体具有无序性的材料作为复杂多体相互作用体系,其内部蕴含着海量的可挖掘信息,机器学习可以更好地利用这些信息并为相关研究提供一种崭新的方法。
1.1机器学习方法简介
机器学习的发展*早可追溯到对人工神经网络的研究。McCulloch和Pitts于1943年提出神经网络层次结构模型,确立了神经网络的计算模型理论,为机器学习的发展奠定了基础。1950年,图灵提出了著名的“图灵测试”,其中提及了机器学习的可能。20世纪50年代到60年代中期,一些早期工作提出了机器学习的初步思想,初步建立了机器学习的理论框架。代表工作有S_el(1959)的跳棋程序,初步展示了机器学习的能力,在人工智能领域产生了较大影响;Rosenblatt(1958)提出的感知机(perceptron),用算法精确定义了自组织自学习的神经网络数学模型,是**个计算机神经网络;Cover和Hart(1967)提出了*近邻算法,成功将计算机应用于简单的模式识别。20世纪60年代中期到70年代末,受理论研究与计算机硬件的限制,机器学习的发展较为缓慢。但在这一时期,仍有部分重要技术得到发展,如专家系统与基于决策理论的学习技术等,代表性工作有Winston(1970)的结构学习系统,Michalski等(1983)基于逻辑的归纳学习系统及Nilsson(1971)的学习机器。20世纪80年代,机器学习迎来了复兴阶段。自**届机器学习国际研讨会召开及**本机器学习专业期刊Machine Learning(《机器学习》)创刊,机器学习受到广泛关注并蓬勃发展,各类机器学习方法不断丰富和发展,在不同学科领域得到应用。
对于机器学习方法,依据不同的标准衍生出多种不同的分类方法,其中根据学习方式进行分类是*常用的分类标准(陈海虹等,2017)。基于学习方法机器学习方法可以分为监督学习、无监督学习、半监督学习和强化学习。
在监督学习中,给定的训练数据集中每个输入都有与之对应的正确或期望输出,即给定的输入与输出之间存在明确的对应关系。监督学习的目标就是使模型通过训练学习到这种关系并泛化至未知输入上。典型的监督学习包括回归和分类两种类别。在无监督学习中,训练数据没有事先给定的输出与标签。无监督学习的目标是模型通过训练发现输入数据之间内在的规律与结构。典型的无监督学习包括聚类、降维、生成等。在半监督学习中,训练数据中只有部分存在标签。半监督学习利用有标签数据及未标记数据的分布信息,使模型更好地学习数据内在结构。在强化学习中,每个输入对应一个环境反馈(奖/惩信号),强化学习以*大化累积奖励为目标,学习如何根据当前状态选择*优行为。
通常情况下机器学习的建模过程主要包括数据处理、模型选择、特征工程、参数寻优及模型分析融合等步骤。数据处理过程需要保留具有实际意义的属性,并且去除相关性较高及偏离较大的属性。将原始数据转化为特征,特征工程就是指利用目标问题所在的特定领域知识或者自动化的方法,通过生成、提取、刪减或者组合变化从而得到特征。特征工程主要包括特征选择、特征提取、特征构建及特征学习。特征选择是指选择出对于问题*重要的特征子集的过程;特征提取是指对原始观测数据进行降维,使其特征集合小到可以进行建模的过程;特征构建是将特征进行混合组合或者切分分解以得到新的特征;特征学习是在原始数据中自动识别和使用特征。机器学习过程中数据的质量很大程度上影响了训练的精度,因此特征工程在整个机器学习过程中具有举足轻重的作用。
常用的机器学习模型有线性模型、树形模型、人工神经网络及基于核方法的模型等,线性模型包括线性回归(linear regression)、岭回归(ridge regression)等算法,树形模型包括随机森林(random forest,RF)、梯度提升决策树(gradient boosting decisiontree,GBDT)及极端梯度提升(extreme gradient boosting,XGBoost)等算法,基于核方法的模型中*典型的则是支持向量机(support vector machine,SVM)。以下介绍几种广泛应用于颗粒材料宏细观力学特性研究的算法模型。
1.1.1决策树
决策树(decisiontree)算法是一种基本的机器学习分类和回归算法。决策树结构与树状相似,包括一个根结点、若干中间结点和叶结点。决策过程自根结点出发自顶向下递归构建,根结点包含全部数据集,在每一个结点处选取*优特征进行数据划分选择,使子结点包含的数据“纯度”更髙,当满足指定条件后停止分裂,由叶结点输出*终决策结果,由图1.1.1可以看出从根结点到每一个叶结点之间路径对应一个判断测试的序列。
决策树学习的目的是生成一棵具有高泛化性能的决策树,即利用算法对训练数据生成可读的规则或决策树,然后使用已建立的规则或决策树在新数据上取得良好的分类或回归预测精度(李定启等,2011)。决策树算法的基本思想如下。
(1)决策树从单个结点开始,结点包含训练样本。
(2)如果样本均为同一类别,那么当前结点成为树叶,并用该类别标记。
(3)否则,算法选择分类能力*强的特征作为决策树的当前结点。
(4)根据当前结点样本特征不同的取值,将样本数据集分成若干子集,为每个取值形成一个分枝;针对上一步得到的子集,重复进行先前步骤,递归形成每个子集的决策树;一旦一个特征出现在一个结点上,则不必在该结点的任何后代考虑它。
(5)当下述任一条件成立时,递归划分步骤停止:①给定结点的所有样本类别相同;②没有剩余特征可用作进一步划分样本,此时,采用多数表决,以样本中所含类别成分较多的作为类别标记;③如果某一分枝没有满足该分枝中已有分类的样本,则以样本的多数类创建一个树叶。
在以上决策树算法运行思路中,*优特征的划分选择对*终结果有着显著的影响。依据不同划分选择方法,决策树算法有ID3、C4.5、CART等类型。以下对几种典型的决策树进行简要介绍。
1)ID3
信息熵(information entropy)是衡量样本集纯度的一种常用指标,假定样本集合D中灸类样本所占比例为,则样本集合的信息熵可表示为
(1.1.1)
式中:的值越小,则表明样本集D的纯度越高。
当使用具有个不同取值的离散属性/对样本集进行划分时,共会生成个结点,假定第个结点的样本集为办,通过式(1.1.1)计算炒,并依据结点样本集数目赋予不同权重,即样本数多的结点有着更大的影响,则信息增益(informationgain)可表示为
(1.1.2)
信息增益越大,表明使用属性/划分能获得越大的纯度提升。因此ID3决策树算法基于信息增益选择划分的属性可确定为
(1.1.3)
2)C4.5
C4.5决策树在ID3决策树基础上做出了一定的改动。考虑ID3决策树方法中信息增益准则偏好与可取值数目较多的特征,C4.5决策树算法采用信息增益率来减少这种影响:
(1.1.4)
(1.1.5)
3)CART
CART决策树使用基尼系数(Gini index)选择划分属性。与信息熵定义类似,基尼系数同样可用于衡量数据集Z)的纯度:
(1.1.6)
基尼系数值反映了从数据集中随机抽取的两个样本类别不一致的概率。因此越小,数据集纯度越高。
与式(1.1.2)符号表示类似,特征/的基尼系数可表示为
(1.1.7)
相应用于进行划分的属性为
(1.1.8)
决策树算法有分类精度高、生成模式简单、鲁棒性强等优点,且易于理解、可解释性强,被广泛用于颗粒材料宏细观力学特性研究。同时,决策树算法容易出现训练数据过拟合,尤其在高维问题或者小样本条件下。在实际应用过程中,往往会采用剪枝、集成学习(如Bagging、Boosting)等方法对决策树进行改进。
1.1.2随机森林
随机森林(RF)算法是一种基于Bagging方法和随机子空间(randomsubspace)法的集成树模型,其基本构成单元为决策树,且各决策树之间并行计算(董师师等,2013;方匡南等,2011),具体来说,其在运行过程中包含以下两次随机过程(马麵,2016)。
(1)随机生成训练集:在构建每棵决策树时,通过采用自助法(如Bootstrap)有放回地随机抽样,产生每棵决策树的训练数据集,使不同决策树训练数据之间存在一定差异,保证模型的多样性。
(2)随机选取特征子集:在基决策树结点分裂时,从该结点的特征集合中选取一个子集,并从子集中选取*优属性进行划分。子集的大小控制随机性的引入程度,由此递归产生每棵基决策树,在输出*终结果时有多种结合策略,如平均法、投票法及Stacking方法。随机森林算法如图1.1.2所示。
随机森林算法有效降低了决策树之间的相关性,对异常值和噪声的容忍度较高,具有较好的泛化能力与准确性,降低了过拟合的风险(王仁超等,2020;钟登华等,2018)。此外,随机森林算法还具有调节参数少、计算开销小、操作方便、易于实现的优点,在目前颗粒材料宏细观力学特性研究中展现出了强大的性能(林威伟等,2018)。
1.1.3梯度提升决策树
梯度提升决策树(GBDT)是一种基于Boosting方法与CART回归树的集成模型,是目前现实场景中表现*稳定的机器学习方法之一,如图1.1.3所示。相比于随机森林,GBDT基于加法模型与向前分步算法逐步提升模型的性能,将多棵弱回归树集成为一棵强回归树。每一次迭代的过程中,GBDT利用*速下降的近似方法,将损失函数的负梯度作为模型拟合数据的残差近似值,按照一定次序进行优化,从而使模型误差不断减小,获得比单棵决策树更好的预测效果与泛化性能。
1.1.4极端梯度提升
以梯度提升决策树算法的基本思想为基础,Chen和Guestrin(2016)开发了极端梯度提升(XGBoost),它是经过并行优化的分布式梯度提升框架,具有高效、灵活和可扩展等特点,被广泛应用于数据挖掘与监督学习等任务中。与GBDT类似,XGBoost也是一种基于CART决策树的集成模型。
XGBoost的模型训练需要定义一个目标函数并优化,式(1.1.9)表示第^次迭代的目标函数:
(1.1.9)
式中:为模型预测值;为真实值;为损失函数;为所有树的复杂度求和;




















