同义词词典
特点
- NLP中常用的不是《新华字典》,而是一种被称为同义词词典的词典
- 在同义词词典中,具有相同含义或者类似含义的单词被归类到同一个组别中
- NLP中会定义单词之间的粒度更细的关系,比如“上位-下位”“整体-部分”
Stay Foolish Stay Hungry
$(x_1,x_2)$表示输入层的数据,$w_{11}、w_{21}$表示权重,$b_1$表示偏置。
第一个隐藏神经元的结果可以表示为:
$$h_1 = x_1w_{11} + x_2w_{21} + b_1$$
隐藏层的神经元是基于加权和计算出来的。
最近看到国外一位大神对机器学习知识点绘制的彩图,通过图解的形式来解释一个知识点,比如过拟合、auc、boosting算法等,非常的形象👍,比如:
支持向量机
本文是针对kaggle上面一份关于数据离群点的分析,主要是介绍如何从数据中快速确定离群点outlier
原文地址:https://www.kaggle.com/code/nareshbhat/outlier-the-silent-killer
原文标题:Outlier!!! The Silent Killer
本文是针对Kaggle上面一份皮马印第安人糖尿病的数据的建模,属于机器学习中的二分类问题。原数据地址:
https://www.kaggle.com/code/vincentlugat/pima-indians-diabetes-eda-prediction-0-906/data
字符串是一种常见的数据类型,我们遇到的文本、json数据等都是属于字符串的范畴。Python内置了很多处理字符串的方法,这些方法为我们处理和清洗数据提供了很大的便利。
网上关于各种降维算法的资料参差不齐,同时大部分不提供源代码。这里有个 GitHub 项目整理了使用 Python 实现了 11 种经典的数据抽取(数据降维)算法,包括:PCA、LDA、MDS、LLE、TSNE 等,并附有相关资料、展示效果;非常适合机器学习初学者和刚刚入坑数据挖掘的小伙伴。