引言

无监督的语义分割是图像处中最具挑战的领域之一,在一些例如医学、生物或者深空探索等领域,对于图像的真实标注是无法获取的、不是完全可信的、又或者是压根的人都没见过的,即使真实标注是可知可控的,标注所需要的人力成本也是巨大的。于是,如果一个模型有无监督语义分割的能力,能在一定程度上给出基于模型自身“理解”的有意义的分割(这里的“理解”并不一定表示模型是强智能的、和人一样的理解,而是模型对于分割或者分类按照某种足够可信的方式组织完成的、或者说可以被人理解和认可的),就显得尤为重要。2022年,STEGO 就给出了这样一种尝试,在无监督语义分割上达到了 SOTA 的性能。

阅读全文 »

引言

从给定的数据中去求解所产生数据的模型是机器学习的中心任务之一,但通常会有一些复杂的模型,总是阻碍我们精确的对它进行描述,或无法准确得出模型的方程,或无法对某几个方程求解,亦或是求解方程的代价太大以至于无法实现。于是,便有了一个用简单的模型去接近、模拟、近似复杂的模型,从而能够进行求解得到最终的近似模型,有能力已有的数据进行描述,这就是近似的方法。本文回顾机器学习中的基础的近似方法————变分推断(Variational Inference),这需要一定的关于概率的基础知识,如果有需要可以参考前一篇文章机器学习基础(一)概率论

阅读全文 »

引言

不确定性可以说是在用数学工具对世界进行建模和认知的时候不可回避的问题,也是机器学习中的一个最基本的概念。于是,我们需要对这种不确定性进行量化和计算,而概率论能够为此提供一个合理的框架。所以,概率论是机器学习中最重要的基础理论之一,这也是本文要详细梳理概率论的基础知识的出发点。如果再辅之以其他工具如决策论、线性代数、微积分等,还能够在让我们构建世界观的同时,有切实可用的方法论。

阅读全文 »

引言

最近在计算矩阵特征值的问题上,用到了 SLEPc(Scalable Library for Eigenvalue Problem Computations),SLEPc 可用于超大稀疏矩阵特征值的快速并行计算,也可以用于其他 SVD 分解等常用矩阵计算。SLEPc 的安装依赖于其他通用科学计算库,比如 PETSc,BLAS/LAPACK 等,环境配置稍显复杂,因此,记录环境配置过程,以备后用。

阅读全文 »

引言

2019年,牛津大学提出了一种无监督,不依赖标签的聚类方法:Invariant Information Clustering (IIC),即根据给定数据对(Data Pair)之间的互信息(Mutual Information, MI)提供端到端的、无标签的、无监督的方式训练神经网络,使其能够直接输出类别标签,从而实现聚类。

阅读全文 »

不积跬步,无以至千里。

阅读全文 »