Este modelo puede ser usado tanto por API, como por aplicaciones nativas de Clibrain ya disponibles al alcance de cualquiera: Clichat, Clibot y Clicall
La IA aún no está capacitada para entender correctamente el español de Borges, el de Vargas Llosa, el de Alejo Carpentier o el de García Márquez…
Clibrain anuncia el hito de la creación del primer modelo de lenguaje (LLM) completamente adaptado y entrenado para IA en español: LINCE.
Este modelo, un hito sin precedentes en nuestra lengua, brinda resultados comparables a los obtenidos con GPT-3. De este modo, Clibrain se sitúa a la vanguardia en la evolución de las IA, dando un paso adelante en el camino hacia un futuro donde la comunicación entre humanos y máquinas está alcanzando su máxima expresión.
El desarrollo de este modelo es una innovación en el proceso de entrenamiento, corpus y técnicas empleadas para obtener el mejor rendimiento, aplicando las últimas técnicas de entrenamiento (fine-tuning) eficientes sobre LLMs, resultado de un dataset totalmente nuevo e inexistente hasta la fecha.
Este modelo, hecho con un enfoque de instrucciones, puede ser usado tanto por API, como por las aplicaciones nativas de Clibrain ya disponibles en el mercado y al alcance de cualquier usuario: Clichat, Clibot y Clicall, permitiendo a las empresas de cualquier tamaño e industria implementar la IA en español con seguridad y privacidad obteniendo los mejores resultados.
¿Por qué un modelo del lenguaje entrenado íntegramente en español?
En el mundo globalizado en el que vivimos, hay una gama de más de 21 variantes del español para las cuales no existen modelos de lenguaje especializados. Las máquinas suelen ofrecer dos o tres variedades, entre las que normalmente se encuentran el español de España y el “latino”, pero sin mucha más variedad. Y lo más importante, es que, por lo general, las respuestas y las instrucciones en nuestro idioma -al igual que en el resto- son el resultado de traducir del inglés a otras lenguas, lo que implica una pérdida de calidad y de matices que nos pone de entrada en desventaja.
Si el contexto para la IA generativa es importante, el contexto cultural aún lo es más, y especialmente cuando hablamos de variedades del lenguaje y dialectos como los que presenta la riqueza del español de América, observamos que la IA aún no está capacitada para entender correctamente el español de Borges, el de Vargas Llosa, el de Alejo Carpentier o el de García Márquez, porque los matices, las metáforas, el léxico más autóctono y el contexto pragmático y cultural hacen que nuestra riqueza lingüística vaya mucho más allá que el de una mera traducción.
Este desafío se vuelve particularmente notorio en disciplinas con lenguaje técnico y especializado como lo son las jurídicas, las financieras o las médicas, al igual que en la interpretación de refranes, frases hechas e incluso en el análisis del castellano antiguo.
Los intentos de procesamiento mediante las traducciones de inteligencia artificial (IA) provenientes del inglés, arrojan resultados muy distantes de la realidad.
Frente a esta situación, resulta estrictamente necesario el desarrollo de modelos de lenguaje centrados y entrenados en español y en todas y cada una de sus variedades, tanto geográficas, como socioculturales e históricas. Esto permitirá superar las barreras que el contexto o el dialecto pueden representar, asegurando la obtención de resultados precisos y significativos.
En la revolución de la información, los datos se han asemejado al oro. Sin embargo, ante los avances tecnológicos y comunicativos actuales, el lenguaje se ha convertido en esa fuente de datos que, sin embargo, sin entrenamiento y sin comunicación, son como diamantes en bruto sin cultivar. Es necesario más que nunca pensar en el lenguaje como una apuesta estratégica para desarrollar las IAs en español y en todas sus variedades para poner en relevancia gracias a la tecnología todo este valor histórico, cultural y económico que a través de nuestra lengua nos puede posicionar competitivamente en un mercado de 600 millones de hablantes en que esta revolución tecnológica no ha hecho más que dar sus primeros atisbos. La oportunidad de dotar a la IA de estas capacidades y hacer que competitivamente hable tan bien español como lo hace en inglés, está en nuestras manos.
Un modelo abierto para todos (Open Source)
El modelo destaca por sus resultados en español, lo que supone un hito científico para la inteligencia artificial nunca antes alcanzado, con una calidad comparable a la de GPT-3.
Otra pieza interesante del camino que emprende Clibrain es el lanzamiento de dos versiones del modelo de lenguaje: la primera de ellas será abierta bajo licencia Open Source que cuenta con más de 7.000 millones de parámetros denominada LINCE ZERO y que podrá ser usada para que todo el mundo pueda crear sus aplicaciones o utilizarlo sin fines comerciales, y la versión final con un tamaño 6 veces superior, denominada LINCE.
Este modelo es una versión robusta y representa un gran salto en la capacidad de la inteligencia artificial para manejar la comunicación en español, independientemente del dialecto o del país.
Clibrain está trabajando actualmente en la creación de un modelo fundacional.Eso significa que sus clientes podrán contar con sus propios modelos adaptados a sus necesidades específicas usando LINCE como base principal.
Primeros pasos para una gran evolución
El lanzamiento de este modelo de lenguaje en español es el primero de muchos pasos a dar. Pronto veremos modelos conversacionales, modelos de imágenes y modelos de embeddings, todos fruto del trabajo de Clibrain y su laboratorio de investigación y desarrollo de IA (Clibrain LAB).
De este modo, demuestran que no solo son capaces de crear soluciones de alta calidad, sino que están en constante evolución, buscando siempre la vanguardia, aportar valor y mejorar sus soluciones.
El equipo Clibrain
Con un equipo de más de veinte personas en tan solo tres meses de vida y fundada por cinco emprendedores únicos; Pablo Fernández (Presidente), Elena González-Blanco (CEO), Pablo Molina (CTO), Paul Martz (CPO) y David Villalón (CAIO), es un equipo multidisciplinar que cuenta con un laboratorio de investigación y desarrollo en el campo de la IA.