R语言基础学习:典型的数据分析项目工作流程

2022-08-0210:36:43编程语言入门到精通Comments790 views字数 939阅读模式

一个典型的数据分析项目的工作流程:文章源自菜鸟学院-https://www.cainiaoxueyuan.com/ymba/26419.html

R语言基础学习:典型的数据分析项目工作流程文章源自菜鸟学院-https://www.cainiaoxueyuan.com/ymba/26419.html

Tidy(数据整理):将数据整理成R可识别的格式,每列是一个变量,每行是一个观测;文章源自菜鸟学院-https://www.cainiaoxueyuan.com/ymba/26419.html

Tranform(数据转换):将数据转换成分析直接需要的数据,即数据的二次加工,如选出感兴趣的行,用现有的变量创建新变量,计算一些统计量等;文章源自菜鸟学院-https://www.cainiaoxueyuan.com/ymba/26419.html

Tidyverse:是一个连贯的数据操作系统,用于数据操作、探索和可视化,其中包含一些核心R包,这些包按功能可以分为数据导入、数据整理、数据转换、可视化、建模、编程;文章源自菜鸟学院-https://www.cainiaoxueyuan.com/ymba/26419.html

ggplot2: for data visualisation(画图、可视化数据)文章源自菜鸟学院-https://www.cainiaoxueyuan.com/ymba/26419.html

dplyr:for data manipulaion(操控数据、过滤、排序等)文章源自菜鸟学院-https://www.cainiaoxueyuan.com/ymba/26419.html

tidyr: for data tidying(清理数据,转为ggplot可用的格式)文章源自菜鸟学院-https://www.cainiaoxueyuan.com/ymba/26419.html

readr: for data import(从文件中读取数据)文章源自菜鸟学院-https://www.cainiaoxueyuan.com/ymba/26419.html

tibble: data.frame的升级款文章源自菜鸟学院-https://www.cainiaoxueyuan.com/ymba/26419.html

stringr:处理字符、查找、替换等;文章源自菜鸟学院-https://www.cainiaoxueyuan.com/ymba/26419.html

forcats: for factors,(处理因子问题)文章源自菜鸟学院-https://www.cainiaoxueyuan.com/ymba/26419.html

tibble格式:R中对多变量数据的标准保存形式是dataframe,而tibble是dataframe的进化版,它的优点有:生成的数据框数据每列可以保持原来的数据格式,不会被强制性改变,即字符串;查看数据是,不会一行显示不下,多行显示非常丑;数据操作速度很快;文章源自菜鸟学院-https://www.cainiaoxueyuan.com/ymba/26419.html

管道函数%>%,是tidyverse数据整理的主力,可以把许多功能连在一起;文章源自菜鸟学院-https://www.cainiaoxueyuan.com/ymba/26419.html

  • dplyr包

基本上包含了我们整理数据的所有功能文章源自菜鸟学院-https://www.cainiaoxueyuan.com/ymba/26419.html

filter:filters out rows according to some condictions(根据条件对行进行过滤)文章源自菜鸟学院-https://www.cainiaoxueyuan.com/ymba/26419.html

arrange:reorders rows according to some conditions(根据条件对行进行排序)文章源自菜鸟学院-https://www.cainiaoxueyuan.com/ymba/26419.html

select: select a subsetof columns(只保留部分列的数据)文章源自菜鸟学院-https://www.cainiaoxueyuan.com/ymba/26419.html

mutate: adds a new column as a function of existing coulums(增加新的列)文章源自菜鸟学院-https://www.cainiaoxueyuan.com/ymba/26419.html

summarize:collapses a data frame to a single row(概述数据的统计特征)文章源自菜鸟学院-https://www.cainiaoxueyuan.com/ymba/26419.html

group_by: breaks a data frame into groups of rows(对数据按照行进行分组)文章源自菜鸟学院-https://www.cainiaoxueyuan.com/ymba/26419.html

  • 本站内容整理自互联网,仅提供信息存储空间服务,以方便学习之用。如对文章、图片、字体等版权有疑问,请在下方留言,管理员看到后,将第一时间进行处理。
  • 转载请务必保留本文链接:https://www.cainiaoxueyuan.com/ymba/26419.html

Comment

匿名网友 填写信息

:?: :razz: :sad: :evil: :!: :smile: :oops: :grin: :eek: :shock: :???: :cool: :lol: :mad: :twisted: :roll: :wink: :idea: :arrow: :neutral: :cry: :mrgreen:

确定