Un mooc de Teoría de Grafos

Existen muchas formas de hacer psicología cuantitativa. A veces, por pereza o costumbre, tendemos a pensar que la ‘medición’ («representar sistemas empíricos con sistemas numéricos») es la única forma de trabajar con datos. Pero nada más lejos de la realidad: existen numerosos sistemas formales que pueden ayudarnos a entender mejor los procesos psicológicos.

Hoy os traemos un MOOC de la Universidad Politécnica de Valencia sobre Teoría de Grafos. Una teoría que desde al menos Fritz Heider en la primera mitad del siglo XX nos ha dado a los psicólogos buenas tarde de gloria.

Cuatro razones para una psicología de datos

15460274462_3c77a54946_o

Seguimos la semana con otro texto en español. En este caso de Un Nombre al Azar. En él da cuatro razones por las que la Metodología de las Ciencias del Comportamiento es necesaria en los estudios de grado: (1) para abordar la alfabetización estadística, (2) para mejorar la percepción social de la psicología, (3) para entender el pasado, presente y futuro de la psicología y (4) porque es un área laboral y de conocimiento más.

Cuatro razones que sin ningún esfuerzo podemos leer como cuatro razones para una psicología de datos.

Una parte no desdeñable de los alumnos de Psicología, y algunos compañeros profesores, valoran las asignaturas de Metodología (métodos de investigación, estadística y psicometría son las más comunes) como conocimientos no vinculados con la materia objeto del grado. Generalizando, los alumnos desean aprender sobre clínica, social y evolutiva, toleran la básica, resisten la psicobiología y sufren la metodología. Es algo parecido al aprendiz de conductor quien, deseoso de sacarse el carné, no le encuentra el sentido a las clases de mecánica.

Creo que hay, al menos, cuatro razones de peso para los contenidos metodológicos en el Grado.

Sigue leyendo >>

Mendeley: el gestor de referencias

mendeley

Hoy en lugar de traducir o publicar algo nuevo, estrenamos nuestra sección de artículos recomendados publicados originalmente en español. Y hoy toca hablar de Mendeley, una herramienta muy útil que, como hablábamos el otro día, es bueno empezar a usarla pronto. La compra por parte de Elsevier puso en duda el futuro del gestor pero a día de hoy sigue siendo una de las herramientas de referencia para cualquiera que quiera poner algo de orden en el biblioteca personal.

El artículo es de Esteban Romero (@polisea) y Sara Terrón (@SaraArq) y estamos seguros que os ayudará a introduciros en el mundillo mendeleyero si aun no estáis dentro.

La gestión de referencias bibliográficas y de los documentos en PDF es fundamental para cualquier persona que se dedique a la investigación y, de forma más general, para cualquier persona en proceso de aprendizaje que deba gestionar información en este formato. En el presente artículo voy a explicar la parte de mi Entorno Personal de Aprendizaje que aborda esta área tan crucial para mi trabajo.
Mendeley es un gestor de referencias bibliográficas que integra las funcionalidades de una red social de investigadores. Para usarlo se debe abrir un usuario en la plataforma y descargar su aplicación de escritorio. Adicionalmente, si se posee iPad y/o iPhone u otros dispositivos móviles se puede instalar la aplicación Mendeley Lite que permite acceder a las referencias bibliográficas almacenadas.

Sigue leyendo >>

Los tres mosqueteros de la ciencia de datos

5597863793_c5ee08acee_b

La semana pasada, cuando explicamos Por qué Excel es el Cardenal Richelieu de la Ciencia de Datos, se abrió un interesante debate sobre qué paquetes o qué lenguajes estaban del lado de los buenos: ¿Cuáles eran los tres mosqueteros que todo científico de datos debería conocer y utilizar? En realidad, en programación la elección de un lenguaje u otro siempre es complicada porque intervienen desde factores técnicos a simples preferencias personales. Eso hace que muchos piensen que el SPSS es algo cool cuando, dejémonos de tonterías, tras su elegante vestimenta de tablas rectangulares se esconde la mismísima Milady de Winter.

Por eso, para ofrecer una visión profunda sobre la cuestión y orientarnos en el mundillo, nos pusimos a investigar sobre qué lenguajes estaban partiendo la pana en el mundo del análisis, la minería y la ciencia de datos.

Empezaremos con la encuesta que hace todos los años O’Reilly (una de las editoriales técnicas más importantes del mundo). Según su informe de 2013 – que se publica todos los eneros – los lenguajes más usados son:

mainlang

La encuesta de KDnuggets (una web de recursos muy usada por la comunidad datera) arroja unos datos ligeramente diferentes. Según esta encuesta a sus usuarios los lenguajes más usados son:

lengaujes

Como podéis ver la muestra de KDnuggets no es muy amplia, pero combinada con O’Reilly encontramos que los tres mosqueteros de la Ciencia de Datos son R, Python y SQL (éste último algo que, aunque lógico por lo que tiene de manejo de bases de datos, no se nos habría ocurrido en un principio).

En KDnuggets nos ofrecen además un gráfico sobre como se relacionan los tres lenguajes:

languages-data-mining-r-python-sql

Ah, por cierto, si R, Python y SQL son los tres mosqueteros aún nos falta saber quien es el pequeño D’Artagnan que siempre va con ellos: y es Julia, el lenguaje con mayor crecimiento porcentual, la gran promesa de la programación estadísitca y que poco a poco se va a cercando a ser lo suficientemente estable como para hacerse mainstream.

Tres maneras de criticar un modelo

3455852747_94f8471e33_b

Publicado originalmente en Everybody Is Stupid Except You

Un modelo es un conjunto de predicciones que dicen que “bajo x condiciones, y debería ocurrir.” (También es una persona muy fotogénica, pero lamentablemente si eso es en lo que estás interesado, no te va a gustar demasiado el resto de la entrada).

Esta es la forma más usada para criticar un modelo: “Ese modelo no puede explicar fenómeno ABC”. El objetivo de este post es señalar una obviedad: esta crítica puede significar tres cosas muy diferentes. A saber,

  1. El modelo hace una predicción sobre ABC y esa predicción es incorrecta.
  2. El modelo hace una predicción sobre ABC y está bien en algunas circunstancias, pero en otras circunstancias está mal.
  3. El modelo no hace ninguna predicción sobre ABC.

Si en algún momento de tu vida propones un modelo y alguien se acerca a ti en una conferencia diciendo “¡¡Tengo datos que tu modelo no puede predecir!! ¡¡Chúpate esa!!” ¿Qué significa? A menudo y por lo general significa críticas tipo 2 o incluso tipo 3. En mi experiencia, es común que las personas mezclen esos tres tipos de crítica y los usen como si fueran más o menos lo mismo. Pero no lo son, claro. De hecho, hay grandes diferencias.

El primer tipo es la más devastador. Es una forma elegante de decir que el modelo es erróneo. El segundo sugiere que el modelo podría ser mejor, y, por tanto, es incompleto (y a veces incorrecto). El tercero no es una objeción en absoluto. Claro que hacer más más predicciones sería bueno, pero seamos sinceros, el único modelo completo se llama REALIDAD.

Acabamos hoy con algunos ejemplos de psicología cognitiva. Como podréis ver, los límites entre los tipos de críticas son un poco borrosos, pero yo diría que son (¡muy!) reales.

La crítica 1

Mi amigo y colega Shana Carpenter propuso un modelo en un artículo de 2011 En la conferenciade psiconomíade este año, otro colega, James Neely, señaló una posible explicación alternativa para los datos. Shana trató de replicar su estudio con diferentes materiales; en caso de estar en lo cierto se hubieran conseguido resultados diferentes y, por consiguiente su teoría podría estar equivocada. Pero no fue el caso y su teoría fue “confirmada”. Otro ejemplo clásico es la teoría de que las vacunas causan autismo. No lo hacen. Esta teoría está simplemente muerta. Y es un buen ejemplo de como la imposibilidad de replicar ciertos estudios abre la puerta a las críticas de este tipo.

  • En pocas palabras: Si la crítica 1 es cierta, el modelo es erróneo.

La crítica 2

Muchos estudios señalan que hacer exámenes ayuda a las personas a averiguar lo que saben y lo que no saben. Hace poco me di cuenta de que esto era cierto, pero sobre todo cuando las personas no comprueban la respuesta después del examen. Si lo hacen, sigue siendo cierto pero el efecto es mucho más débil. Esta es la crítica 2. El modelo original es correcto, pero es incompleta porque no toma en cuenta alguna variable importante.

  • En pocas palabras: Si la crítica 2 es cierta, el modelo necesita ser modificado para hacerse más completo.

 La crítica 3

He aquí otro ejemplo de la conferencia de psiconomía de este año.Presenté un modelo que asume que la gente se olvida de información a través del tiempo. Eso es una suposición bastante estándar y el modelo hace predicciones sobre otra cosa (los cambios en la tasa de olvido con el tiempo). Alguien levantó la mano y dijo: el modelo no tiene en cuenta los efectos de la reminiscencia – el hecho de que la memoria aumente con el tiempo, en lugar de disminuir. Este es un punto importante, pero incluso si es cierto no invalida el modelo. El modelo no hace predicciones sobre la reminiscencia (que por lo demás, es algo diferente de cualquier otra concepción de la memoria).

  • En pocas palabras: Si la crítica 3 es cierta, el modelo está probablemente muy bien. Simplemente no lo cubre todo bajo el sol (Aunque por supuesto, siempre sería mejor si lo hiciera).

Resumen

Cuando un modelo no predice un fenómeno (o conjunto de datos), la conclusión apropiada puede variar desde “el modelo está mal” para “el modelo está bien, pero hay cosas que no intenta explicar”. Y hay que tener cuidado con confundir una cosa con la otra.

Por qué R es mejor que Excel

4413987121_5d846ec4a5_b

Publicado originalmente en Fantasy Football Analytics
y versionado por Psicología de Datos.

Se han escrito muchos artículos sobre por qué es mejor R que Excel para el análisis de datos. En este post, voy a resumir las razones por las que el uso de R presenta más ventajas en la mayoría de los casos. Aunque este post se centra en los beneficios del uso de R para el análisis de Fantasy Football (por motivos evidentes), ​​los beneficios de R se extienden a muchos otros dominios (por ejemplo, las finanzas, las series temporales, el aprendizaje automático, las ciencias sociales, etc. – para obtener una lista de los diferentes de paquetes R pinche aquí).

¿Qué es R?

R es un paquete de software y un lenguaje para el análisis estadístico y gráfico.

¿Cuándo y por qué R es mejor que Excel?

  1. Manipulación de datos. R te permite manipular (seleccionar, recodifica, recuperar) datos muy rápidamente. Algunos paquetes de R han sido diseñados para ello especialmente, como plyr. Por lo general,la mayoría del tiempo dedicado a un proyecto de análisis se gasta  antes de los análisis: en la preparación de los datos . R es mucho más hábil y eficiente en la preparación de datos que Excel.
  2. Más fácil automatización.   R utiliza un lenguaje de script en lugar de una interfaz gráfica de usuario, por lo que es mucho más fácil de automatizar cosas en R que en Excel. Esto le puede ahorrar un montón de tiempo, especialmente cuando tiene que volver a ejecutar el mismo análisis varias veces.
  3. Cálculo rápido.  Debido a la automatización proporcionada por R, muchas operaciones son mucho más rápidas para realizar en R de Excel.
  4. Lee cualquier tipo de datos.  R puede leer prácticamente cualquier tipo de datos (.txt, .csv, .dat, etc). También hay paquetes de R específicamente diseñados para leer archivos JSON, SPSS, Excel, SAS, STATA. E incluso se puede usar los datos de cualquier sitio web y ejecutar consultas SQL.
  5. Más fácil Organización de Proyectos. En Excel, los proyectos se organizan a menudo en diferentes pestañas del mismo libro. Esto puede hacer que los archivos de Excel sean lentos, torpes y difíciles a la hroa de trabajar con ellos. Es más fácil mantener un proyecto organizado cuando se trata de R porque las diferentes tareas o sub-proyectos se pueden guardar en archivos separados almacenados en la misma carpeta y unidos entre sí en un mismo proyecto con RStudio.
  6. Es compatible con grandes conjuntos de datos.  Excel tiene restricciones para el tamaño pueden tener sus datos. Y aún en el caso de tus datos no superen este tamaño máximo, Excel suele ser lento con grandes conjuntos de datos (sobre todo después de añadir pestañas, fórmulas y referencias). R es compatible con los datos de mayor tamaño, y puede soportar grandes volúmenes de datos con paquetes como Hadoop.
  7. La replicabilidad. R tiene características que hacen mucho más fácil replicar los resultados de su análisis; algo que es importante para la detección de errores. En primer lugar, es fácil de agregar comentarios a las secuencias de comandos para que quede claro lo que estás haciendo. Comentar tu código es crucial, y puede servir como una “traducción” para alguien más que lo vea en el futuro o incluso ¡como un recordatorio de lo que hiciste hace 6 meses! Por contra, es difícil documentar los pasos que has hecho en Excel. En segundo lugar, los datos y el análisis permanecen separados en R, lo que permite ver la progresión lógica. En Excel, sin embargo, los datos y las fórmulas están juntos, y puede ser difícil de seguir los pasos que dio el analista de los datos. En tercer lugar, se puede utilizar el control de versiones con git a) para realizar un seguimiento (y revertir) los cambios que realicen en el tiempo y b) para compartir sus scripts con otros y colaborar en proyectos como una comunidad. Tener más personas que examinan tu trabajo puede ayudar a encontrar y corregir errores, y hacer mejoras importantes. Los archivos de Excel son archivos binarios, por lo que no se pueden registrar cambios de esta manera. [Nota de Psicología de Datos: JJMerelo y Pablo Hinojosa tienen un libribrito sobre git estupendo de la muerte].
  8. Precisión.  Los investigadores han demostrado que Excel y otras hojas de cálculo muestran inexactitudes importantes para análisis básicos como la regresión lineal . R fue diseñado específicamente para hacer análisis estadístico, por lo que es más preciso y exacto para el análisis de datos.
  9. Más fáciles de encontrar y corregir los errores.  Debido R utiliza secuencias de comandos en lugar de “hacer clic” y permite comentarios y control de versiones, se puede ver un historial de las acciones realizadas para lograr cada resultado. Esto hace que sea más fácil encontrar y solucionar errores. En Excel, sin embargo, los errores se pueden ocultar en las fórmulas de cualquier celdilla y allí pueden ser difíciles de encontrar. Los errores de las hoja de cálculo han conducido han sido ampliamente publicitadas, incluyendo cosas como pérdidas financieras desastrosas, políticas gubernamentales erróneas y prescripción drogas equivocadas en pacientes de cáncer. Seamos justos: los seres humanos cometen errores; es más, los errores en el análisis de datos son inevitables, ya sea con hojas de cálculo o con el código R. Pero la conclusión lógica es que si es más fácil encontrar y corregir estos errores en R que en Excel, R es una mejor opción.
  10. Es gratuito.  Nada más que añadir, señoría.
  11. Es código abierto.  A diferencia de Excel y otros paquetes estadísticos que se utilizan en análisis de datos, R no es una caja negra. Puedes examinar el código para cualquier función o cálculo que se realiza. De hecho, puedes incluso modificar y mejorar estas funciones cambiando el código.
  12. Estadística avanzada. R tiene muchas más (y más avanzadas) capacidades estadísticas que Excel. También es más rápido y flexible. Parte de las capacidades avanzadas de R se deben al punto anterior: R es código abierto y eso ha favorecido que muchos usuarios hayan contribuido para realizar funciones especializadas.
  13. ¡Los gráficos! R tiene capacidades avanzadas de gráficos. Se puede crear gráficos chulísimos utilizando tanto el paquete básico de R como lattice o ggplot. A la gente le gusta ver los datos y R proporciona algunas de las herramientas para la creación de visualizaciones más bonitas del mercado.
  14. Se ejecuta en muchas plataformas.  Puede utilizar R en Windows, Mac, Linux y Unix.
  15. Cualquier persona (incluso tu) puede contribuir con Paquetes a la Comunidad y así mejorar su funcionalidad. Si estás buscando algo y no existe, se puede escribir una función para llevar a cabo la tarea y puede aportar como un paquete para que otros la usen y mejoren. El número de paquetes de R está aumentando a un ritmo rápido. Eso hace que probablemente si hay algo que quieras hacer ya exista un paquete para hacerlo.

Por estas razones,

  1. R es considerado ‘el idioma’ de la ciencia de datos,
  2. el uso de R está aumentando exponencialmente,
  3. el número de paquetes R está aumentando de forma exponencial (+),
  4. un número creciente de puestos de trabajo requiere de experiencia con R,
  5. las habilidades con R atraen los sueldos más altos en informática
  6. y muchas empresas utilizan R.

Cuándo utilizar Excel

  1. Entrada de datos.   No estoy necesariamente de recomendando Excel para la entrada de datos, pero tiene algunas características interesantes (incluyendo la validación de los mismos). La validación de datos asegura que los datos introducidos se ajustan a los requisitos especificados por el usuario (por ejemplo, “debe ser un número entero entre 0-5”) y puede reducir los errores en este tipo de tareas tediosas. El problema al almacenar datos en formato Excel (xls / xlsx) es que estos formatos no cooperan bien con otros tipos de software, por lo que si usted planea hacer cualquier manipulación de datos o el análisis con otro software (por ejemplo, R) la cosa se complica un poco. Es mejor guardar los datos como valores separados por comas (CSV): el formato más ampliamente utilizado y que puede ser leído por la mayoría de software de datos. En la mayoría de casos, sin embargo, utilizar un simple editor de texto o algún tipo de software de gestión de base de datos es mejor opción para la entrada de datos.
  2. Cálculos básicos.  Excel pueden ser más rápidos para cálculos muy simples (por ejemplo, estadísticas descriptivas) o con algunas manipulaciones sencillas. Pero para cualquier cosa más allá de eso probablemente será mejor en R.
  3. Ver los datos de un vistazo. Excel puede ser útil para realizar un rápido resumen visual de los datos.Hay maneras de haerlo en R, pero la vista de hoja de cálculo no se presenta de forma predeterminada.
  4. Presentación de datos y resumen. Excel puede ser útiles para la presentación estéticamente agradable de hojas de cálculo.

Cómo descargar R

Puede descargar aquí R:  http://cran.r-project.org/. Y recomiendo encarecidamente el editor de texto RStudio para trabajar con R:  http://www.rstudio.com/ide/download/.

Cómo importar datos de Excel a R

Aunque hay paquetes R para importar datos de Excel directamente (ver aquíaquí, y aquí ) es generalmente mejor para exportar los datos de Excel a un archivo CSV y luego importar el archivo CSV en R utilizando el read.csv función () . Aquí está el código para importar un archivo CSV en R y almacenarla en un objeto llamado ‘mydata’:

mydata <- read.csv ("C: /excelData.csv")

¿Dónde puedo aprender a usar R?

  1. Puedes utilizar esta introducción a R:  http://www.statmethods.net/
  2. Echar un vistazo a estos recursos para comenzar a utilizar R: http://www.ats.ucla.edu/stat/ r /
  3. Mirar estos videos de Coursera: http://blog.revolutionanalytics.com/2012/12/coursera-videos.html
  4. Publicar en la  lista de distribución R  o  foros  si tiene preguntas
  5. Leer otros blogs sobre  R-bloggers
  6. Y leer esta página! [Nota de Psicología de Datos: O la nuestra :-)]

Resumen

En resumen, R tiene muchas ventajas sobre Excel y otros programas de análisis de datos. Si está utilizando Excel para análisis de datos, da una oportunidad a R. Te sentirás muy agradecido de haberlo hecho.

Lecturas adicionales