Componentes del Machine Learning



Básicamente, necesitamos tres elementos para aprender el modelo:


Datos:


Cuanto más diversos sean los datos, mejor será el resultado. 


Hay dos maneras de recoger los datos: manualmente y automáticamente. Los datos recogidos manualmente tienen mucho menos error, pero tardan más en recogerse y suelen ser más caros.


La recogida automática de datos es más barata, pero también más propensa a errores.


Hay que tener en cuenta que empresas como Google utilizan a sus clientes para clasificar los datos de forma gratuita. Para ello se utiliza ReCaptchas, que nos pide que seleccionemos, por ejemplo, todas las imágenes que muestran un autobús. Este proceso les proporciona mano de obra gratuita, reduciendo el coste de esta clasificación manual si tuvieran que contratar personal para hacerlo. ¿Es legal? Este es el tema de otro artículo, precisamente porque los usuarios desconocen la verdadera finalidad de este proceso cada vez más habitual.


Una buena recopilación de datos es extremadamente cara y compleja, hasta el punto de que las empresas comparten los distintos algoritmos que desarrollan, pero los conjuntos de datos nunca (o rara vez) se comparten.



Parámetros o variables:


Se refiere a los factores que el modelo debe tener en cuenta. Por ejemplo: origen geográfico del usuario, sexo, edad, etc.


Si hablamos de datos que se recogen en una tabla, es más fácil de entender: una variable es el nombre que le damos a una columna.


En otros casos, por ejemplo si tenemos imágenes de animales y tenemos que clasificarlos, no podemos definir una variable para cada componente mínimo (píxel) de la imagen. Por lo tanto, la elección de las variables adecuadas suele ser la parte que más tiempo consume en la tarea de aprendizaje automático. También suele ser la principal fuente de errores. 


Algoritmo:


Esta es la parte más obvia. Cada problema puede resolverse de diferentes maneras. En el mundo del aprendizaje automático, el método elegido afecta directamente a la precisión, el rendimiento y el tamaño del modelo final. 


Es importante tener en cuenta que, como hemos dicho antes, incluso el mejor algoritmo es inútil si los datos no son buenos. Por lo tanto, es muy importante intentar obtener la mayor cantidad posible de datos bien clasificados antes de centrarse en la tasa de precisión. Si te ha parecido interesante este post y quieres saber más sobre este tema, sigue nuestro blog donde seguiremos publicando nuevos contenidos.


SIGUIENTE


Comentarios

Publicar un comentario

Comentarios