Work 20%
NLTK常用操作和语料库 NLTK常用操作和语料库
安装NLTK按照官方步骤:Installing NLTK 在安装完nltk后,通过下述命令可查看nltk版本: import nltk print nltk.__doc__ 输出: The Natural Language Toolkit
2017-12-19
Week11:Photo OCR & Conclusion Week11:Photo OCR & Conclusion
OCR问题通俗一点讲就是图像识别中的文字识别。比方说给一张图,请识别图中的文字。 滑动窗口探测法该方法用于识别出图中哪些区域还有所指定的目标物体。 它选一个特定的尺寸的图片进行二分训练,判断这个尺寸的图片中是否含有要找的目标。 例如行人探
2017-12-04
Week10:Learning with large datasets Week10:Learning with large datasets
大规模机器学习大规模是指训练集数据很多,比如有1亿组数据。 大数据有一句话叫做“最后胜利的人不是因为他有好的算法,而是他用有大量数据”,因为随着数据量的增加,机器学习算法的准确度都会变得很高。 批量梯度下降先看梯度下降方程,以线性回归为例
2017-12-02
Week9:Anomaly Detection & Recommender Systems Week9:Anomaly Detection & Recommender Systems
序Coursera的课程还有2周就要结束了,我这周基本上是每天学一周的内容,而下周就要开始正式接触NLP了。 身边也有一起学习Ng这套课程的人,但是学到一半没到就放弃了,我在学习过程中也问过自己,Ng这套11年的课程放在现在还有价值么?这是
2017-12-01
Week8-2:Dimensionality Reduction Week8-2:Dimensionality Reduction
维数约简假如你负责一项机器学习项目,最开始你需要收集数据集,也许把收集任务下发给各部门后,收集上来的数据特征有上千个,你是全部用呢?还是只用一部分呢?如果只用一部分,应该如何选择呢? 首先我们肯定是不能全用的,因为特征太多会拖慢训练速度。
2017-11-30
Week8-1: Clustering Week8-1: Clustering
序模仿coursera的结构,把第八周分成两部分。前面七周学习内容,我们经常用到训练这个词,就像妈妈教小孩子说话一样,是属于监督学习,数据集是有标记的,这样我们才能根据 $x$ 来预测 $y$。 对于无监督学习,给出的数据集是无标记的,可以
2017-11-29
Week7: Support Vector Machines Week7: Support Vector Machines
序因为时间上的限制,本周必须要把Course的课程看完,之后开始步入实战,所以周二就搞定了第七周的内容。支持向量机(Support Vector Machines)这个词很早就听过,今天总算是学到了这个知识点。 线性可分和非线性可分什么是线
2017-11-28
Week 6:Machine Learning System Design Week 6:Machine Learning System Design
序接Exercise5的内容,他们都是第六周的内容。这一部分主要讲如何设计一个机器学习系统。 垃圾邮件分类器假设你正要去实现一个垃圾邮件分类器,你会怎么做?这是一个二分类问题,我已经学习了线性回归、逻辑回归、神经网络。最快速、准确的方式应该
2017-11-27
Exercise 5: Regularized Linear Regression and Bias v.s. Variance Exercise 5: Regularized Linear Regression and Bias v.s. Variance
序第六周的内容是机器学习的训练方法。 我们已经学习了线性回归、逻辑回归、神经网络,本质上他们都是通过数据的输入,来习得一个预测函数。那么怎么来评估习得函数的好坏呢?如果一个预测函数很好的预测了训练数据,而对于新数据的预测却不准,那这就不是一
2017-11-25
Exercise 4: Neural Networks Learning Exercise 4: Neural Networks Learning
序一天两发,是因为这两次的练习内容都是神经网络,比较接近。 回顾第四周的作业,最后使用神经网络进行多分类预测的时候,Ng给出了训练好的Θ,本周的主要内容就是学习如何训练一个神经网络,最终得出Θ。 正向传播:Cost Function参考公式
2017-11-24
2 / 3