加入收藏 | 设为首页 | 会员中心 | 我要投稿 新余站长网 (https://www.0790zz.com/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 大数据 > 正文

数据科学技能测试:快来看看你能全过吗?

发布时间:2021-06-05 11:05:23 所属栏目:大数据 来源:互联网
导读:1. 如何区分机器学习、人工智能和数据科学?(主题:通识) 人工智能这一术语涵盖范围广泛,主要涉及机器人学和文本分析等应用,并服务于商业和技术领域。机器学习隶属于人工智能,但其涉及领域较狭窄,且只用于技术领域。数据科学并不完全隶属于机器学习,而是
1. 如何区分机器学习、人工智能和数据科学?(主题:通识)
人工智能这一术语涵盖范围广泛,主要涉及机器人学和文本分析等应用,并服务于商业和技术领域。机器学习隶属于人工智能,但其涉及领域较狭窄,且只用于技术领域。数据科学并不完全隶属于机器学习,而是利用机器学习来分析并做出预测,可用于商业领域。
2. 什么是正态分布?(主题:统计学、词汇)
正态分布,也称为钟形曲线,指大多数实例聚集在中心,且实例数量随着距中心距离的增加而减少这种分布情况。严格来讲,统计学上,正态分布的定义是:66%的数据在平均值的一个标准差内,95%的数据在平均值的两个标准差内,99%的数据在平均值的三个标准差内。
数据科学技能测试:快来看看你能通关吗?
图源:Wikipedia
3. 什么是推荐系统?(主题:词汇)
推荐系统是信息过滤系统的一个子类,旨在预测用户对产品的偏好或评级。推荐系统广泛应用于电影、新闻、科研文章、产品、音乐等领域。
4. 不看聚类,如何选择k均值聚类算法中的k值?(聚类算法)
k均值聚类算法中,k值的选取有两种方法。一种方法是手肘法,y轴指某个误差函数,x轴指聚类的数量,如果整个图的形状像一个手臂的话,那肘部对应的值就是最佳的聚类数量。
数据科学技能测试:快来看看你能通关吗?
显然,在上图中,肘部对应的k值就是3。然而,如果曲线形状不够清晰,那就只能使用第二种方法,即轮廓系数法。轮廓系数法指用范围在-1到1之间的轮廓系数来描述每个簇的数量,系数越大的聚类通常则为最佳聚类数。
5. 线性回归和逻辑回归有什么区别?(主题:回归与分类算法)
线性回归是一种统计技术,指将数据拟合到一条线上(或多元线性回归中的一个多维平面)。当目标值在连续尺度内时,就会发生回归。逻辑回归可由线性回归通过sigmoid函数转换而成,并会给出一组输入值为分类0和1的概率。
6. 一种测试的真阳性率为100%,假阳性率为5%。一个群体有千分之一的概率会在测试中出现这种情况。如果你有一个阳性测试,出现这种情况的概率有多大呢?(主题:分类率)
假设你正在接受一项疾病测试,如果你患有此病,测试结果会显示你已患病。但如果你未患病,5%的情况下,测试结果会显示你患有此病,95%的情况下,会显示你没有患病。
因此,在未患病的情况下,会有5%的误差。在1000人中,有1人会得到真正的阳性结果,而在剩下的999人中,5%的人会得到(假)阳性结果。大约50人会得到该病的阳性结果。
数据科学技能测试:快来看看你能通关吗?
图源:unsplash
也就是说,在1000人中,即使只有1人患病,也会有51人的检测结果呈阳性。但即便如此,你的患病几率也只有2%。
7. 梯度下降法总是收敛于同一点吗?(主题:神经网络)
不,梯度下降法并不总是收敛于同一点。由于误差空间中可能存在多个局部极小值,根据其特性(例如动量或权重),梯度下降法可能会在不同的地方结束。
8. 如何通过box-cox变换改善模型性能?(主题:统计学、算法)
Box-cox变换指将数据按照一定次幂进行转换,例如将其平方、立方或开方(即1/2次方)。由于任何数的0次方永远是1,因此,box-cox变换中的“0次方”被认为是对数变换。
对数函数将指数函数放在线性尺度上,因而可以改善模型性能。也就是说,线性回归之类的线性模型在数据方面性能更优越。
此外,对函数进行平方和立方运算也有助于整理数据,或突出重点信息。

(编辑:新余站长网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

    热点阅读