UZER.ME上的“大数据编程环境“使用教程(1)- 数据可视化


  • UM管理员

    当前大数据科学/机器学习/人工智能越来越热门,很多非计算机专业的学生也开始学习大数据课程。但是对于非计算机专业的学生,在本机上配置编程环境是一个非常大的挑战,需要下载安装Anaconda,Jupyter Notebook,Scikit-Lean学习库,Tensor-Flow,等等。对于一个新手往往需要花上好几天的时间,还可能需要找专业人士帮忙。

    针对这个问题,UZER.ME专门上线了”大数据编程“环境,让用户无需下载安装配置任何环境,点击即可打开进行大数据编程。请大家认准这个图标。
    0_1523941848795_92c80efa-a590-42ae-aa27-fbe305399bcf-image.png

    接下来,本文一步一步的教大家如何利用uzer.me上的”大数据编程“环境,结合一组美国加州的房地产数据来进行数据可视化。

    第一步:在UZER.ME上打开“大数据编程”,创建一个新项目

    0_1523942294168_b060a10c-f63b-4ea2-998e-19819b7d5223-image.png

    第二步:下载“加州房地产”数据,

    首先,输入以下代码从https://raw.githubusercontent.com/ageron/handson-ml/master/datasets/housing/housing.tgz下载房地产数据并保存在文件“datasets/housing/housing.tgz“,然后解压到”datasets/housing/housing.csv"文件中。数据结束后使用“SHIFT+ENTER"执行这段代码。
    0_1523942705199_2b706618-e31a-440c-b0b0-5a08c6b17a1c-image.png

    接着输入第二段代码并使用”SHIFT+ENTER"执行这段代码。这段代码从”datasets/housing/housing.csv“文件读取数据,并打印出前5行数据。如下图,每一行数据对应一个小社区,经度,维度,房屋年龄中位数,房间数量,人口数量,家庭数量,家庭收入中位数,房屋价格中位数,是否靠近海岸,等等。。。
    0_1523942868998_89bfa347-f0ba-4eff-b0a5-b919f801c161-image.png

    第三步:数据探索

    输入housing.info()并使用SHIFT+ENTER执行这段代码。从结果可以看出这个数据集一共有20640条数据,对应加州两万多个社区的房屋价格。
    0_1523943490351_acc8a062-ac27-4e4b-a0a4-5cd50cc34511-image.png

    输入housing.describe()并使用SHIFT+ENTER执行这段代码。从结果可以看出每个Attribute的数据分布,平均值,标准差,最小值,最大值,以及在各个百分位的值。
    0_1523943673998_f76b709e-dcf5-4ace-b5ea-10be1b631732-image.png

    第四步:数据可视化

    执行如下代码可以画出数据各个Attribute的直方图。
    0_1523943936788_1d53d805-6b10-4297-8558-4807d1292698-image.png

    执行以下代码housing.plot(kind=“scatter”, x=“longitude”, y=“lattitude”),可以画出数据的地理位置分布(加州地理形状的轮廓)
    0_1523944044103_0cc24dd5-f9d0-40f1-b030-24b675034e43-image.png

    在上面的代码中加一个透明度参数alpha=0.1, 可以从图上看出房屋分布的密集度。房屋密集的区域颜色会比较深,反之房屋比较稀疏的区域颜色就比较浅。
    0_1523944228369_5b83d168-7019-478d-90f4-4494fa09fe14-image.png

    使用下列代码housing.plot(kind=“scatter”, x=“longitude”, y=“latitude”, alpha=0.4, s=housing[“population”]/100, label=“population”, c=“median_house_value”, cmap=plt.get_cmap(“jet”), colorbar=True)可以进一步可视化更多信息。每一个社区对应一个圆圈,圆圈的半径越大人口数量就越大;颜色对应房屋价格,红色代表高价蓝色代表低价。从图表中我们可以清晰的看到房屋价格和人口密集程度之间的关联关系,在洛杉矶和旧金山一带的房屋价格比较贵。也可以看出房屋价格和位置的关系,在靠近海岸线的地方房屋价格也是比较贵的。
    0_1523944402650_b475c01c-2ae7-4ccf-a9c3-8aeaa7645e9b-image.png



  • 对python3还不太熟悉,对着教程码上去,成功了 👌

    ok.png


登录后回复
 

与 UZER-BBS 的连接断开,我们正在尝试重连,请耐心等待