非负矩阵分解,Cholesky分解

大学线性代数有什么用？

感谢悟空问答小秘书/头条教育邀请。我是一叶知秋有仙则名，我来回答这个问题。叶秋恰好是学数学的，就简单的说些自己的看法吧。线性代数对应与数学系本科学生的高等代数，高等代数的核心是线性空间和线性变换，线性代数面向工科学生，侧重点略有不同，线性代数有两个核心章节，线性方程组和特征值与特征向量，这是线性代数的两个核心章节，可以这么来理解线性代数的结构，第三章向量是为回答方程组解的理论问题准备的，即方程组什么时候有解，什么时候无解，有解的话是唯一解还是无穷多解。

第一章行列式和第二章矩阵是为求解线性方程组的解准备的。不过，最好不要用克莱姆法则解方程组，因为它比通常解法计算时间高了一阶，如果是10000个未知数的方程组，克莱姆法则是其它解法运算时间的一万倍！线性代数的第二个核心问题就是第五章特征值和特征向量，第六章是第五章的应用，所以考研时线代两个大题通常会出在第五章和第六章。

这里吐槽一下，现在各种各样的教材很多，经常是每个学校都有自己的教材还经常采用自己的教材，为什么呢？因为有的人为了评职称，有的人为了赚钱。这样下来既苦了学生，也苦了带课老师，教材不好学生看起来费劲，老师讲起来也费劲，教育部也注意到这个问题，要求减少自编教材的使用，高数和线代我推荐同济版的。线性代数有什么用呢？它的用处确实不少，在每个行业都有自己的应用。

举几个例子来说明吧。第一个例子高性能计算机很多人都挺熟悉的，它计算性能的高低是通过浮点运算能力体现的，有两个速度，一个是峰值运算速度，一个是实测速度，实测速度是怎么测出来的？用的Linpack软件，怎么测，就是采用求线性方程组和求特征值问题来测，当然规模很大，看看这不就是线性代数的两个核心问题嘛。为什么用这个而不是用其它的测？这是更有意义的一个问题，因为实际中很多工程科技问题都可以归结为这两个问题。

前段时间王牌对王牌相信很多人看了，里面王牌队对阵青春队，最后大题是三种动物头有多少脚有多少翅膀有多少，问三种动物各有多少。晓机灵对阵包贝尔，我怀疑包贝尔小时候上过奥数要不就是他现在辅导过奥数，他用的就是典型小学生奥数的抬腿问题，比如下图，怎么解呢？让兔子抬腿，那么地上有70条腿，少了24只腿，除以2得兔子有12只，所以鸡有23只。

这是小学生的做法，因为小孩不理解线性方程组，成年人一般都是列两个未知数两个方程的方程组求解就行了。比赛时包贝尔用的抬腿法解的，不过有三种动物还是有一定难度的，关晓彤用的三元一次线性方程组，不过解的过程中不知道怎么解。要是学过线代这事就妥了，将增广矩阵化成行阶梯形或行最简形就可以得出答案了。线代有什么用，上王牌能赢。

?这个比较简单，叶秋说个高端点的，美国经济学家华西里.列昂惕夫是研究投入产出分析的，用什么研究，线性方程组，他将美国经济部门分为500个，然后研究每个部门的投入在其他部门的产出，这样就得到了500个未知数500个方程的线性方程组，问题是以当时的计算能力得算几年，几年后黄花菜都凉了，怎么办，将方程组简化化成42个方程42个未知数，然后用了56个小时解出来了，有没有意义，华西里就因为这个获得了1973年的诺贝尔经济学奖。

有没有更新的例子，很多很多，现在网络这么发达，我们经常用到搜索引擎，那么如何开判断哪个网页重要哪个网页不重要呢？用的就是马尔科夫链的稳定性，用到的就是矩阵。先举个简单例子，有三个小朋友小红小绿小蓝，他们都有六块糖果，每个人自己的糖果不能分给自己，只能分给另外两人，老师让他们分，小红把自己的糖果全分给小绿，我的糖果我做主，小绿分给小红两块，小蓝四块，小蓝是个中庸派，分给小红和小绿各三块。

分完以后怎么样，老师也很有好奇心，让他们继续分下去，想看看最后会怎么样。这样分了n轮后，假设小红小绿小蓝的糖果数分别是Xn、Yn、Zn，因为分法是不变的(也就是分的概率不变)，所以每次的结果只和上一次有关。这是什么，这就是线性变换(比如主成分分析和非负矩阵分解都是一种线性变换)，将一个向量变成另一个向量，矩阵就是线性变换矩阵，下面就是矩阵形式。

将未知向量记为Pn，系数矩阵记为A，则有下面更简单的形式Pn 1=APn使用递推公式可得Pn=A的n次方乘以P0，可以看出，这和矩阵A有关，或者说和A的n次方有关。在马尔科夫链里，这个矩阵叫转移矩阵，具体到分糖果发现从60次开始往后小红小绿小蓝的糖果数趋于稳定，三个人是5、8、5。而且，最后的这个稳定状态和刚开始你有多少糖果无关，只和转移矩阵有关。

那么，这个和搜索有什么关系，搜索时如何把用户想要的网页呈现给用户？如何衡量网页的重要性呢？在悟空问答里可以用点赞数评论量来衡量，问题是用户看网页时一般没有点赞和评论，那怎么办？用链接到这个网页的网页数来衡量这个网页的重要性，就跟一篇文章引用次数越高质量越好一样。现在假设包含同一关键词的网页总共有N个，每个网页都链接到某些网页，这样就得到了转移矩阵，由稳定性可知，经过若干次转移后趋于稳定，这样就得到了所有网页权重的一个稳定状态，此时进行排名即可，是不是很神奇？这就是谷歌搜索的Pagerank算法，由谷歌创始人之一拉里佩奇提出。

文本挖掘的方法主要有哪些？

文本挖掘一直是十分重要的信息处理领域，因为不论是推荐系统、搜索系统还是其它广泛性应用，我们都需要借助文本挖掘的力量。每天所产生的信息量正在迅猛增加，而这些信息基本都是非结构化的海量文本，它们无法轻易由计算机处理与感知。因此，我们需要一些高效的技术和算法来发现有用的模式。文本挖掘近年来颇受大众关注，是一项从文本文件中提取有效信息的任务。

由于以各种形式（如社交网络、病历、医疗保障数据、新闻出版等）出现的文本数据数量惊人，文本挖掘（TM）近年来颇受关注。IDC在一份报告中预测道：截至到2020年，数据量将会增长至400亿TB（4*(10^22) 字节），即从2010年初开始增长了50倍[50]。文本数据是典型的非结构化信息，它是在大多数情况下可产生的最简单的数据形式之一。

人类可以轻松处理与感知非结构化文本，但机器显然很难理解。不用说，这些文本定然是信息和知识的一个宝贵来源。因此，设计出能有效处理各类应用中非结构化文本的方法就显得便迫在眉睫。目前现在的文本挖掘方法主要有：1. 信息检索（Information Retrieval，IR）：信息检索是从满足信息需求的非结构化数据集合中查找信息资源（通常指文档）的行为。

2. 自然语言处理（Natural Language Processing ，NLP）：自然语言处理是计算机科学、人工智能和语言学的子领域，旨在通过运用计算机理解自然语言。3. 文本信息提取（Information Extraction from text ，IE）：信息提取是从非结构化或半结构化文档中自动提取信息或事实的任务。

4. 文本摘要：许多文本挖掘应用程序需要总结文本文档，以便对大型文档或某一主题的文档集合做出简要概述。5. 无监督学习方法（文本）：无监督学习方法是尝试从未标注文本中获取隐藏数据结构的技术，例如使用聚类方法将相似文本分为同一类。6. 监督学习方法（文本）：监督学习方法从标注训练数据中学习分类器或推断功能，以对未知数据执行预测的机器学习技术。

7. 文本挖掘的概率方法：有许多种概率技术，包括无监督主题模型（如概率潜在语义分析模型（pLSA） [64] 与文档主题生成模型（LDA）[16]）和监督学习方法（如可在文本挖掘语境中使用的条件随机场）[83]。8. 文本流与社交媒体挖掘：网络上存在许多不同的应用程序，它们可以生成大量的文本数据流。9. 观点挖掘与情感分析：随着电子商务和网络购物的问世，产生了大量的文本，并在不同的产品评论或用户意见上不断增长。

机器学习中有哪些线性代数实例？

线性代数是数学的分支学科，涉及矢量、矩阵和线性变换。它是机器学习的重要基础，从描述算法操作的符号到代码中算法的实现，都属于该学科的研究范围。虽然线性代数是机器学习领域不可或缺的一部分，但二者的紧密关系往往无法解释，或只能用抽象概念（如向量空间或特定矩阵运算）解释。在这篇文章中，我们将使用 10 个常见机器学习案例，这些案例需要用线性代数才能得到最好的理解。

阅读这篇文章后，你将会了解到：如何在处理数据时使用线性代数结构，如表格数据集和图像。数据准备过程中用到的线性代数概念，例如 one-hot 编码和降维。深度学习、自然语言处理和推荐系统等子领域中线性代数符号和方法的深入使用。让我们开始吧。综述这 10 个机器学习案例分别是：1. 数据集和数据文件2. 图像和照片3. 编码4. 线性回归5. 正则化6. 主成分分析7. 奇异值分解8. 潜在语义分析9. 推荐系统10.深度学习1. 数据集和数据文件在机器学习中，你可以在数据集上拟合一个模型。

这是表格式的一组数字，其中每行代表一组观察值，每列代表观测的一个特征。例如，下面这组数据是鸢尾花数据集的一部分数据集地址：http://archive.ics.uci.edu/ml/datasets/Iris5.1,3.5,1.4,0.2,Iris-setosa4.9,3.0,1.4,0.2,Iris-setosa4.7,3.2,1.3,0.2,Iris-setosa4.6,3.1,1.5,0.2,Iris-setosa5.0,3.6,1.4,0.2,Iris-setosa这些数据实际上是一个矩阵：线性代数中的一个关键数据结构。

接下来，将数据分解为输入数据和输出数据，使之适用于一个受监督的机器学习模型（如测量值和花卉品种），得到矩阵（X）和矢量（y）。矢量是线性代数中的另一个关键数据结构。每行长度相同，即每行的数据个数相同，因此我们可以说数据是矢量化的。这些行数据可以一次性或成批地提供给模型，并且可以预先配置模型，以得到固定宽度的行数据。

2. 图像和照片也许您更习惯于在计算机视觉应用中处理图像或照片。您使用的每个图像本身都是一个表格结构，每个单元格都有一个固定宽度和高度以及用于表示黑白图像的 1 个像素值或表示彩色图像的 3 个像素值。照片也是线性代数矩阵的一种。与图像相关的操作，如裁剪，缩放，剪切等，都是使用线性代数的符号和操作来描述的。

3. 一位有效编码有时机器学习中要用到分类数据。可能是用于解决分类问题的分类标签，也可能是分类输入变量。对分类变量进行编码以使它们更易于使用并通过某些技术进行学习是很常见的。一位有效编码是一种常见的分类变量编码。一位有效编码可以理解为：创建一个表格，以表示每个类别中一列的变量和数据集中每个例子的一行。

在列中为给定行的分类值添加一个检查或「1」值，并将「0」值添加到所有其他列。例如，共计 3 行的颜色变量：redgreenblue...这些变量可能被解码为：red, green, blue1, 0, 00, 1, 00, 0, 1...每一行都被编码为一个二进制矢量，一个被赋予「0」或「1」值的矢量。

这是一个稀疏表示的例子，一个线性代数的完整子域。4. 线性回归线性回归是一种用于描述变量之间关系的统计学传统方法。该方法通常用于机器学习，用于预测较简单的回归问题的数值。描述和解决线性回归问题有很多种方法，即找到一组系数，用这些系数与每个输入变量相乘并将结果相加，得出最佳的输出变量预测。如果您使用过机器学习工具或机器学习库，解决线性回归问题的最常用方法是通过最小二乘优化，这一方法是使用线性回归的矩阵分解方法解决的（例如 LU 分解，奇异值分解或 SVD）。

即使是线性回归方程的常用总结方法也使用线性代数符号：y = A . b其中，y 是输出变量，A 是数据集，b 是模型系数。5. 正则化在应用机器学习中，我们往往寻求最简单可行的模型来发挥解决我们问题的最佳技能。较简单的模型通常更擅长从具体示例泛化到不可见数据。在涉及系数的许多方法中，例如回归方法和人工神经网络，较简单的模型通常具有较小的系数值。

一种常用于鼓励模型在数据拟合时尽量减小系数值的技术称为正则化。常见应用包括正则化的 L2 和 L1 形式。这两种正则化形式在实际中用来测量作为矢量的系数的大小或长度，是直接脱胎于名为矢量范数的线性代数方法。6. 主成分分析通常，数据集有许多列，列数可能达到数十，数百，数千或更多。对具有许多特征的数据进行建模具有一定的挑战性。

而且，从包含不相关特征的数据构建的模型通常不如用最相关的数据训练的模型熟练。我们很难知道数据的哪些特征是相关的，而哪些特征又不相关。自动减少数据集列数的方法称为降维，也许最流行的方法是主成分分析法（简称 PCA）。该方法用于机器学习，为可视化和模型的训练创建高维数据的投影。PCA 方法的核心是线性代数的矩阵分解方法。

可能会用到特征分解。更可靠的实现可以使用奇异值分解或 SVD。7.奇异值分解另一种流行的降维方法是奇异值分解方法，简称 SVD。如上所述，正如该方法名称所示，它是源自线性代数领域的矩阵分解方法。该方法在线性代数中有广泛的用途，可直接应用于特征选择、可视化、降噪等方面。在机器学习中我们会看到以下两个使用 SVD 的情况。

8. 潜在语义分析在用于处理称为自然语言处理的文本数据的机器学习的子领域中，通常将文档表示为词出现的大矩阵。例如，矩阵的列可以是词汇表中的已知词，行可以是文本的句子、段落、页面或文档，矩阵中的单元格标记为单词出现的次数或频率。这是文本的稀疏矩阵表示。矩阵分解方法（如奇异值分解）可以应用于此稀疏矩阵，该分解方法可以提炼出矩阵表示中相关性最强的部分。

以这种方式处理的文档比较容易用来比较、查询并作为监督机器学习模型的基础进行使用。这种形式的数据准备称为潜在语义分析（简称 LSA），也称为潜在语义索引（LSI）。9. 推荐系统涉及产品推荐的预测建模问题被称为推荐系统，这是机器学习的一个子领域。例如，基于您在亚马逊上的购买记录和与您类似的客户的购买记录向您推荐书籍，或根据您或与您相似的用户在 Netflix 上的观看历史向您推荐电影或电视节目。

推荐系统的开发主要涉及线性代数方法。一个简单的例子就是使用欧式距离或点积之类的距离度量来计算稀疏顾客行为向量之间的相似度。像奇异值分解这样的矩阵分解方法在推荐系统中被广泛使用，以提取项目和用户数据的有用部分，以备查询、检索及比较。10. 深度学习人工神经网络是一种非线性机器学习算法，它受大脑中信息处理元素的启发，其有效性已经在一系列问题中得到验证，其中最重要的是预测建模。

深度学习是近期出现的、使用更新方法和更快硬件的人工神经网络的复兴，这一方法使得在非常大的数据集上开发和培训更大更深的（更多层）网络成为可能。深度学习方法通常会在机器翻译、照片字幕、语音识别等一系列具有挑战性的领域取得最新成果。神经网络的执行涉及线性代数数据结构的相乘和相加。如果扩展到多个维度，深度学习方法可以处理向量，矩阵，甚至输入和系数的张量，此处的张量是一个两维以上的矩阵。

线性代数是描述深度学习方法的核心，它通过矩阵表示法来实现深度学习方法，例如 Google 的 TensorFlow Python 库，其名称中包含「tensor」一词。结论在这篇文章中，您浏览了 10 个您可能熟悉的常见机器学习案例，这些案例都要用到并需要线性代数。具体来说，您学到了：在处理表格数据集和图像等数据时使用线性代数结构。

文章TAG：分解非负 Cholesky 矩阵

非负矩阵分解,Cholesky分解

大家都在看

相关文章推荐