Cuatro razones para una psicología de datos

15460274462_3c77a54946_o

Seguimos la semana con otro texto en español. En este caso de Un Nombre al Azar. En él da cuatro razones por las que la Metodología de las Ciencias del Comportamiento es necesaria en los estudios de grado: (1) para abordar la alfabetización estadística, (2) para mejorar la percepción social de la psicología, (3) para entender el pasado, presente y futuro de la psicología y (4) porque es un área laboral y de conocimiento más.

Cuatro razones que sin ningún esfuerzo podemos leer como cuatro razones para una psicología de datos.

Una parte no desdeñable de los alumnos de Psicología, y algunos compañeros profesores, valoran las asignaturas de Metodología (métodos de investigación, estadística y psicometría son las más comunes) como conocimientos no vinculados con la materia objeto del grado. Generalizando, los alumnos desean aprender sobre clínica, social y evolutiva, toleran la básica, resisten la psicobiología y sufren la metodología. Es algo parecido al aprendiz de conductor quien, deseoso de sacarse el carné, no le encuentra el sentido a las clases de mecánica.

Creo que hay, al menos, cuatro razones de peso para los contenidos metodológicos en el Grado.

Sigue leyendo >>

Por qué R es mejor que Excel

4413987121_5d846ec4a5_b

Publicado originalmente en Fantasy Football Analytics
y versionado por Psicología de Datos.

Se han escrito muchos artículos sobre por qué es mejor R que Excel para el análisis de datos. En este post, voy a resumir las razones por las que el uso de R presenta más ventajas en la mayoría de los casos. Aunque este post se centra en los beneficios del uso de R para el análisis de Fantasy Football (por motivos evidentes), ​​los beneficios de R se extienden a muchos otros dominios (por ejemplo, las finanzas, las series temporales, el aprendizaje automático, las ciencias sociales, etc. – para obtener una lista de los diferentes de paquetes R pinche aquí).

¿Qué es R?

R es un paquete de software y un lenguaje para el análisis estadístico y gráfico.

¿Cuándo y por qué R es mejor que Excel?

  1. Manipulación de datos. R te permite manipular (seleccionar, recodifica, recuperar) datos muy rápidamente. Algunos paquetes de R han sido diseñados para ello especialmente, como plyr. Por lo general,la mayoría del tiempo dedicado a un proyecto de análisis se gasta  antes de los análisis: en la preparación de los datos . R es mucho más hábil y eficiente en la preparación de datos que Excel.
  2. Más fácil automatización.   R utiliza un lenguaje de script en lugar de una interfaz gráfica de usuario, por lo que es mucho más fácil de automatizar cosas en R que en Excel. Esto le puede ahorrar un montón de tiempo, especialmente cuando tiene que volver a ejecutar el mismo análisis varias veces.
  3. Cálculo rápido.  Debido a la automatización proporcionada por R, muchas operaciones son mucho más rápidas para realizar en R de Excel.
  4. Lee cualquier tipo de datos.  R puede leer prácticamente cualquier tipo de datos (.txt, .csv, .dat, etc). También hay paquetes de R específicamente diseñados para leer archivos JSON, SPSS, Excel, SAS, STATA. E incluso se puede usar los datos de cualquier sitio web y ejecutar consultas SQL.
  5. Más fácil Organización de Proyectos. En Excel, los proyectos se organizan a menudo en diferentes pestañas del mismo libro. Esto puede hacer que los archivos de Excel sean lentos, torpes y difíciles a la hroa de trabajar con ellos. Es más fácil mantener un proyecto organizado cuando se trata de R porque las diferentes tareas o sub-proyectos se pueden guardar en archivos separados almacenados en la misma carpeta y unidos entre sí en un mismo proyecto con RStudio.
  6. Es compatible con grandes conjuntos de datos.  Excel tiene restricciones para el tamaño pueden tener sus datos. Y aún en el caso de tus datos no superen este tamaño máximo, Excel suele ser lento con grandes conjuntos de datos (sobre todo después de añadir pestañas, fórmulas y referencias). R es compatible con los datos de mayor tamaño, y puede soportar grandes volúmenes de datos con paquetes como Hadoop.
  7. La replicabilidad. R tiene características que hacen mucho más fácil replicar los resultados de su análisis; algo que es importante para la detección de errores. En primer lugar, es fácil de agregar comentarios a las secuencias de comandos para que quede claro lo que estás haciendo. Comentar tu código es crucial, y puede servir como una “traducción” para alguien más que lo vea en el futuro o incluso ¡como un recordatorio de lo que hiciste hace 6 meses! Por contra, es difícil documentar los pasos que has hecho en Excel. En segundo lugar, los datos y el análisis permanecen separados en R, lo que permite ver la progresión lógica. En Excel, sin embargo, los datos y las fórmulas están juntos, y puede ser difícil de seguir los pasos que dio el analista de los datos. En tercer lugar, se puede utilizar el control de versiones con git a) para realizar un seguimiento (y revertir) los cambios que realicen en el tiempo y b) para compartir sus scripts con otros y colaborar en proyectos como una comunidad. Tener más personas que examinan tu trabajo puede ayudar a encontrar y corregir errores, y hacer mejoras importantes. Los archivos de Excel son archivos binarios, por lo que no se pueden registrar cambios de esta manera. [Nota de Psicología de Datos: JJMerelo y Pablo Hinojosa tienen un libribrito sobre git estupendo de la muerte].
  8. Precisión.  Los investigadores han demostrado que Excel y otras hojas de cálculo muestran inexactitudes importantes para análisis básicos como la regresión lineal . R fue diseñado específicamente para hacer análisis estadístico, por lo que es más preciso y exacto para el análisis de datos.
  9. Más fáciles de encontrar y corregir los errores.  Debido R utiliza secuencias de comandos en lugar de “hacer clic” y permite comentarios y control de versiones, se puede ver un historial de las acciones realizadas para lograr cada resultado. Esto hace que sea más fácil encontrar y solucionar errores. En Excel, sin embargo, los errores se pueden ocultar en las fórmulas de cualquier celdilla y allí pueden ser difíciles de encontrar. Los errores de las hoja de cálculo han conducido han sido ampliamente publicitadas, incluyendo cosas como pérdidas financieras desastrosas, políticas gubernamentales erróneas y prescripción drogas equivocadas en pacientes de cáncer. Seamos justos: los seres humanos cometen errores; es más, los errores en el análisis de datos son inevitables, ya sea con hojas de cálculo o con el código R. Pero la conclusión lógica es que si es más fácil encontrar y corregir estos errores en R que en Excel, R es una mejor opción.
  10. Es gratuito.  Nada más que añadir, señoría.
  11. Es código abierto.  A diferencia de Excel y otros paquetes estadísticos que se utilizan en análisis de datos, R no es una caja negra. Puedes examinar el código para cualquier función o cálculo que se realiza. De hecho, puedes incluso modificar y mejorar estas funciones cambiando el código.
  12. Estadística avanzada. R tiene muchas más (y más avanzadas) capacidades estadísticas que Excel. También es más rápido y flexible. Parte de las capacidades avanzadas de R se deben al punto anterior: R es código abierto y eso ha favorecido que muchos usuarios hayan contribuido para realizar funciones especializadas.
  13. ¡Los gráficos! R tiene capacidades avanzadas de gráficos. Se puede crear gráficos chulísimos utilizando tanto el paquete básico de R como lattice o ggplot. A la gente le gusta ver los datos y R proporciona algunas de las herramientas para la creación de visualizaciones más bonitas del mercado.
  14. Se ejecuta en muchas plataformas.  Puede utilizar R en Windows, Mac, Linux y Unix.
  15. Cualquier persona (incluso tu) puede contribuir con Paquetes a la Comunidad y así mejorar su funcionalidad. Si estás buscando algo y no existe, se puede escribir una función para llevar a cabo la tarea y puede aportar como un paquete para que otros la usen y mejoren. El número de paquetes de R está aumentando a un ritmo rápido. Eso hace que probablemente si hay algo que quieras hacer ya exista un paquete para hacerlo.

Por estas razones,

  1. R es considerado ‘el idioma’ de la ciencia de datos,
  2. el uso de R está aumentando exponencialmente,
  3. el número de paquetes R está aumentando de forma exponencial (+),
  4. un número creciente de puestos de trabajo requiere de experiencia con R,
  5. las habilidades con R atraen los sueldos más altos en informática
  6. y muchas empresas utilizan R.

Cuándo utilizar Excel

  1. Entrada de datos.   No estoy necesariamente de recomendando Excel para la entrada de datos, pero tiene algunas características interesantes (incluyendo la validación de los mismos). La validación de datos asegura que los datos introducidos se ajustan a los requisitos especificados por el usuario (por ejemplo, “debe ser un número entero entre 0-5”) y puede reducir los errores en este tipo de tareas tediosas. El problema al almacenar datos en formato Excel (xls / xlsx) es que estos formatos no cooperan bien con otros tipos de software, por lo que si usted planea hacer cualquier manipulación de datos o el análisis con otro software (por ejemplo, R) la cosa se complica un poco. Es mejor guardar los datos como valores separados por comas (CSV): el formato más ampliamente utilizado y que puede ser leído por la mayoría de software de datos. En la mayoría de casos, sin embargo, utilizar un simple editor de texto o algún tipo de software de gestión de base de datos es mejor opción para la entrada de datos.
  2. Cálculos básicos.  Excel pueden ser más rápidos para cálculos muy simples (por ejemplo, estadísticas descriptivas) o con algunas manipulaciones sencillas. Pero para cualquier cosa más allá de eso probablemente será mejor en R.
  3. Ver los datos de un vistazo. Excel puede ser útil para realizar un rápido resumen visual de los datos.Hay maneras de haerlo en R, pero la vista de hoja de cálculo no se presenta de forma predeterminada.
  4. Presentación de datos y resumen. Excel puede ser útiles para la presentación estéticamente agradable de hojas de cálculo.

Cómo descargar R

Puede descargar aquí R:  http://cran.r-project.org/. Y recomiendo encarecidamente el editor de texto RStudio para trabajar con R:  http://www.rstudio.com/ide/download/.

Cómo importar datos de Excel a R

Aunque hay paquetes R para importar datos de Excel directamente (ver aquíaquí, y aquí ) es generalmente mejor para exportar los datos de Excel a un archivo CSV y luego importar el archivo CSV en R utilizando el read.csv función () . Aquí está el código para importar un archivo CSV en R y almacenarla en un objeto llamado ‘mydata’:

mydata <- read.csv ("C: /excelData.csv")

¿Dónde puedo aprender a usar R?

  1. Puedes utilizar esta introducción a R:  http://www.statmethods.net/
  2. Echar un vistazo a estos recursos para comenzar a utilizar R: http://www.ats.ucla.edu/stat/ r /
  3. Mirar estos videos de Coursera: http://blog.revolutionanalytics.com/2012/12/coursera-videos.html
  4. Publicar en la  lista de distribución R  o  foros  si tiene preguntas
  5. Leer otros blogs sobre  R-bloggers
  6. Y leer esta página! [Nota de Psicología de Datos: O la nuestra :-)]

Resumen

En resumen, R tiene muchas ventajas sobre Excel y otros programas de análisis de datos. Si está utilizando Excel para análisis de datos, da una oportunidad a R. Te sentirás muy agradecido de haberlo hecho.

Lecturas adicionales