¿Qué es la ciencia de datos? – Unite.AI

El campo de la ciencia de datos parece volverse más grande y popular cada día. Según LinkedIn, la ciencia de datos fue uno de los campos laborales de más rápido crecimiento en 2017 y en 2020 Glassdoor clasificó el trabajo de la ciencia de datos como uno de los tres mejores trabajos dentro de los Estados Unidos. Dada la creciente popularidad de la ciencia de datos, no sorprende que más personas se interesen en el campo. Sin embargo, ¿qué es exactamente la ciencia de datos?

Familiaricémonos con la ciencia de datos, tomemos un tiempo para definir la ciencia de datos, exploremos cómo el big data y la inteligencia artificial están cambiando el campo, conozcamos algunas herramientas comunes de ciencia de datos y examinemos algunos ejemplos de ciencia de datos.

¿Qué es la ciencia de datos?

Antes de que podamos explorar cualquier herramienta o ejemplo de ciencia de datos, queremos obtener una definición concisa de Ciencia de los datos.

Definir «ciencia de datos» es en realidad un poco complicado, porque el término se aplica a muchas tareas y métodos diferentes de investigación y análisis. Podemos comenzar recordándonos lo que significa el término “ciencia”. La ciencia es el estudio sistemático del mundo físico y natural a través de la observación y la experimentación, con el objetivo de avanzar en la comprensión humana de los procesos naturales. Las palabras importantes en esa definición son «observación» y «comprensión».

Si la ciencia de datos es el proceso de comprender el mundo a partir de patrones en los datos, entonces el responsabilidad de un científico de datos es transformar datos, analizar datos y extraer patrones de datos. En otras palabras, un científico de datos recibe datos y utiliza una serie de herramientas y técnicas diferentes para preprocesar los datos (prepararlos para el análisis) y luego analizar los datos en busca de patrones significativos.

El rol de un científico de datos es similar al rol de un científico tradicional. Ambos se ocupan del análisis de datos. para apoyar o rechazar hipótesis sobre cómo funciona el mundo, tratando de dar sentido a los patrones en los datos para mejorar nuestra comprensión del mundo. Los científicos de datos utilizan los mismos métodos científicos que un científico tradicional. Un científico de datos comienza reuniendo observaciones sobre algunos fenómenos que le gustaría estudiar. Luego formulan una hipótesis sobre el fenómeno en cuestión y tratan de encontrar datos que anulen su hipótesis de alguna manera.

Si los datos no contradicen la hipótesis, es posible que puedan construir una teoría o modelo sobre cómo funciona el fenómeno, que pueden probar una y otra vez para ver si es cierto para otros conjuntos de datos similares. Si un modelo es lo suficientemente robusto, si explica bien los patrones y no se anula durante otras pruebas, incluso puede usarse para predecir ocurrencias futuras de ese fenómeno.

Un científico de datos normalmente no recopilará sus propios datos a través de un experimento. Por lo general, no diseñarán experimentos con controles y ensayos doble ciego para descubrir variables de confusión que podrían interferir con una hipótesis. La mayoría de los datos analizados por un científico de datos serán datos obtenidos a través de estudios y sistemas de observación, que es una forma en la que el trabajo de un científico de datos puede diferir del trabajo de un científico tradicional, que tiende a realizar más experimentos.

Dicho esto, se podría llamar a un científico de datos para que haga una forma de experimentación. llamadas pruebas A/B donde se realizan ajustes en un sistema que recopila datos para ver cómo cambian los patrones de datos.

Independientemente de las técnicas y herramientas utilizadas, la ciencia de datos tiene como objetivo final mejorar nuestra comprensión del mundo dando sentido a los datos, y los datos se obtienen a través de la observación y la experimentación. La ciencia de datos es el proceso de usar algoritmos, principios estadísticos y varias herramientas y máquinas para extraer información de los datos, información que nos ayuda a comprender los patrones en el mundo que nos rodea.

¿Qué hacen los científicos de datos?

Es posible que esté viendo que cualquier actividad que involucre el análisis de datos de una manera científica puede llamarse ciencia de datos, que es parte de lo que hace que definir la ciencia de datos sea tan difícil. Para que quede más claro, exploremos algunas de las actividades que un científico de datos podría hacer diariamente.

La ciencia de datos reúne muchas disciplinas y especialidades diferentes. Foto: Calvin Andrus vía Wikimeedia Commons, CC BY SA 3.0 (https://commons.wikimedia.org/wiki/File:DataScienceDisciplines.png)

En un día cualquiera, se le puede pedir a un científico de datos que: cree un esquema de recuperación y almacenamiento de datos, cree canalizaciones ETL (extraer, transformar, cargar) de datos y limpie los datos, emplee métodos estadísticos, elabore visualizaciones de datos y tableros, implemente inteligencia artificial y algoritmos de aprendizaje automático, hacen recomendaciones para acciones basadas en los datos.

Desglosemos un poco las tareas enumeradas anteriormente.

Es posible que se requiera un científico de datos para manejar la instalación de las tecnologías necesarias para almacenar y recuperar datos, prestando atención tanto al hardware como al software. La persona responsable de este puesto también puede denominarse “Ingeniero de datos”. Sin embargo, algunas empresas incluyen estas responsabilidades bajo el rol de científicos de datos. Un científico de datos también puede necesitar crear, o ayudar en la creación de, Canalizaciones ETL. Los datos rara vez vienen formateados como los necesita un científico de datos. En su lugar, los datos deberán recibirse sin procesar desde la fuente de datos, transformarse en un formato utilizable y preprocesarse (cosas como estandarizar los datos, eliminar redundancias y eliminar datos corruptos).

Métodos estadísticos de ciencia de datos

Él aplicación de estadísticas es necesario convertir el simple hecho de observar los datos e interpretarlos en una ciencia real. métodos de estadística se utilizan para extraer patrones relevantes de conjuntos de datos, y un científico de datos debe estar bien versado en conceptos estadísticos. Deben poder discernir las correlaciones significativas de las correlaciones espurias controlando las variables de confusión. También necesitan conocer las herramientas adecuadas para determinar qué características del conjunto de datos son importantes para su modelo o tienen poder predictivo. Un científico de datos necesita saber cuándo usar un enfoque de regresión frente a un enfoque de clasificación, y cuándo preocuparse por la media de una muestra frente a la mediana de una muestra. Un científico de datos simplemente no sería un científico sin estas habilidades cruciales.

Visualización de datos

Una parte crucial del trabajo de un científico de datos es comunicar sus hallazgos a otros. Si un científico de datos no puede comunicar de manera efectiva sus hallazgos a otros, entonces las implicaciones de sus hallazgos no importan. Un científico de datos también debe ser un narrador eficaz. Esto significa producir visualizaciones que comuniquen puntos relevantes sobre el conjunto de datos y los patrones descubiertos en él. Hay una gran cantidad de diferentes Visualización de datos herramientas que un científico de datos podría usar, y pueden visualizar datos con fines de exploración básica inicial (análisis exploratorio de datos) o visualizar los resultados que produce un modelo.

Recomendaciones y Aplicaciones Empresariales

Un científico de datos necesita tener cierta intuición de los requisitos y objetivos de su organización o negocio. Un científico de datos necesita comprender estas cosas porque necesita saber qué tipos de variables y características deben analizar, explorando patrones que ayudarán a su organización a alcanzar sus objetivos. Los científicos de datos deben ser conscientes de las limitaciones bajo las que operan y de las suposiciones que hace el liderazgo de la organización.

Aprendizaje automático e IA

El aprendizaje automático y otros algoritmos y modelos de inteligencia artificial son herramientas utilizadas por los científicos de datos para analizar datos, identificar patrones dentro de los datos, discernir relaciones entre variables y hacer predicciones sobre eventos futuros.

Ciencia de datos tradicional frente a ciencia de datos masivos

A medida que los métodos de recopilación de datos se han vuelto más sofisticados y las bases de datos más grandes, ha surgido una diferencia entre la ciencia de datos tradicional y la ciencia de «grandes datos».

El análisis de datos tradicional y la ciencia de datos se realizan con análisis descriptivos y exploratorios, con el objetivo de encontrar patrones y analizar los resultados de desempeño de los proyectos. Los métodos tradicionales de análisis de datos a menudo se centran solo en datos pasados ​​y datos actuales. Los analistas de datos a menudo se ocupan de datos que ya se han limpiado y estandarizado, mientras que los científicos de datos a menudo se ocupan de datos complejos y sucios. Se pueden usar técnicas más avanzadas de análisis de datos y ciencia de datos para predecir el comportamiento futuro, aunque esto se hace más a menudo con big data, ya que los modelos predictivos a menudo necesitan grandes cantidades de datos para construirse de manera confiable.

«Big data» se refiere a datos que son demasiado grandes y complejos para ser manejados con técnicas y herramientas tradicionales de análisis de datos y ciencia. Los grandes datos a menudo se recopilan a través de plataformas en línea y se utilizan herramientas avanzadas de transformación de datos para hacer que los grandes volúmenes de datos estén listos para la inspección por parte de la ciencia de datos. A medida que se recopilan más datos todo el tiempo, una mayor parte del trabajo de los científicos de datos implica el análisis de big data.

Herramientas de ciencia de datos

Ciencia de datos común herramientas incluyen herramientas para almacenar datos, realizar análisis exploratorios de datos, modelar datos, realizar ETL y visualizar datos. Plataformas como Amazon Web Services, Microsoft Azure y Google Cloud ofrecen herramientas para ayudar a los científicos de datos a almacenar, transformar, analizar y modelar datos. También hay herramientas de ciencia de datos independientes como Airflow (infraestructura de datos) y Tableau (visualización y análisis de datos).

En términos de aprendizaje automático y algoritmos de inteligencia artificial utilizados para modelar datos, a menudo se proporcionan a través de módulos y plataformas de ciencia de datos como TensorFlow, PyTorch y Azure Machine-learning studio. Estas plataformas, como los científicos de datos, editan sus conjuntos de datos, componen arquitecturas de aprendizaje automático y entrenan modelos de aprendizaje automático.

Otras herramientas y bibliotecas comunes de ciencia de datos incluyen SAS (para modelado estadístico), Apache Spark (para el análisis de transmisión de datos), D3.js (para visualizaciones interactivas en el navegador) y Jupyter (para visualizaciones y bloques de código interactivos y compartibles) .

Foto: Seonjae Jo vía Flickr, CC BY SA 2.0 (https://www.flickr.com/photos/[email protected]/19786840570)

Ejemplos de ciencia de datos

Los ejemplos de ciencia de datos y sus aplicaciones están en todas partes. La ciencia de datos tiene aplicaciones en todo, desde entrega de alimentos, deportes, tráfico y salud. Los datos están en todas partes y, por lo tanto, la ciencia de datos se puede aplicar a todo.

En cuanto a los alimentos, Uber está invirtiendo en una expansión de su sistema de viajes compartidos centrado en la entrega de alimentos, Uber come. Uber Eats necesita hacer llegar a las personas su comida de manera oportuna, mientras aún está caliente y fresca. Para que esto suceda, los científicos de datos de la empresa deben utilizar modelos estadísticos que tengan en cuenta aspectos como la distancia desde los restaurantes hasta los puntos de entrega, las prisas de las festividades, el tiempo de cocción e incluso las condiciones climáticas, todo considerado con el objetivo de optimizar los tiempos de entrega. .

Los gerentes de equipo utilizan las estadísticas deportivas para determinar quiénes son los mejores jugadores y formar equipos fuertes y confiables que ganarán juegos. Un ejemplo notable es la ciencia de datos documentada por Michael Lewis en el libro bola de dinerodonde el gerente general del equipo Oakland Athletics analizó una variedad de estadísticas para identificar jugadores de calidad que podrían fichar por el equipo a un costo relativamente bajo.

El análisis de los patrones de tráfico es fundamental para la creación de vehículos autónomos. vehículos autónomos deben ser capaces de predecir la actividad a su alrededor y responder a los cambios en las condiciones de la carretera, como la mayor distancia de frenado requerida cuando llueve, así como la presencia de más automóviles en la carretera durante las horas pico. Más allá de los vehículos autónomos, las aplicaciones como Google Maps analizan los patrones de tráfico para decirles a los viajeros cuánto tiempo les llevará llegar a su destino utilizando varias rutas y formas de transporte.

En términos de ciencia de datos de salud, la visión por computadora a menudo se combina con el aprendizaje automático y otras técnicas de inteligencia artificial para crear clasificadores de imágenes capaces de examinar cosas como rayos X, FMRI y ultrasonidos para ver si hay algún problema médico potencial que pueda aparecer en el escaneo. Estos algoritmos se pueden utilizar para ayudar a los médicos a diagnosticar enfermedades.

En última instancia, la ciencia de datos cubre numerosas actividades y reúne aspectos de diferentes disciplinas. Sin embargo, la ciencia de datos siempre se preocupa por contar historias convincentes e interesantes a partir de datos y por usar los datos para comprender mejor el mundo.

Deja un comentario