En un mundo donde la complejidad de los modelos de lenguaje financiero (LLM) continúa creciendo, es esencial contar con evaluaciones que trasciendan los estándares generales de procesamiento del lenguaje natural (NLP). Aunque las competencias tradicionales suelen enfocarse en tareas de NLP más amplias, a menudo no satisfacen las demandas específicas del sector financiero, como prever movimientos bursátiles, evaluar riesgos crediticios y extraer información de informes financieros. Por esta razón, hemos creado el Open FinLLM Leaderboard.
Esta tabla de clasificación ofrece un marco de evaluación especializado diseñado específicamente para el sector financiero, llenando un vacío crítico en la evaluación de modelos de lenguaje que necesitan estar listos para su uso en el mundo real. El leaderboard se centra en resaltar las competencias financieras de los modelos, priorizando tareas que interesan a los profesionales del sector, como la extracción de información de documentos financieros, el análisis del sentimiento del mercado y la previsión de tendencias financieras.
- Cobertura Integral de Tareas Financieras: El leaderboard evalúa modelos solo en tareas relevantes para las finanzas, como extracción de información, análisis de sentimiento, evaluación del riesgo crediticio y prevención de movimientos bursátiles. Estas tareas son esenciales para la toma de decisiones financieras en el mundo real.
- Relevancia en el Mundo Real: Los conjuntos de datos utilizados para los estándares representan los desafíos reales que enfrenta el sector financiero, asegurando que los modelos sean evaluados en su capacidad para manejar datos financieros complejos, volviéndolos aptos para aplicaciones en la industria.
- Evaluación Zero-Shot en Foco: El leaderboard emplea un método de evaluación zero-shot, probando modelos en tareas financieras no vistas previamente sin ninguna preparación previa. Este enfoque revela la capacidad de un modelo para generalizar y realizar bien en contextos financieros, como predecir movimientos de precios de acciones o extraer entidades de informes regulatorios, sin haber sido entrenado explícitamente en esas tareas.
Características Clave del Open Financial LLM Leaderboard
- Categorías de Tareas Diversas: El leaderboard cubre tareas en siete categorías: Extracción de Información (IE), Análisis Textual (TA), Respuesta a Preguntas (QA), Generación de Texto (TG), Gestión de Riesgos (RM), Predicción (FO) y Toma de Decisiones (DM).
- Métricas de Evaluación: Los modelos son evaluados utilizando diversas métricas, como Precisión, F1 Score, ROUGE Score y Coeficiente de Correlación de Matthews (MCC). Estas métricas proporcionan una visión multidimensional del rendimiento, ayudando a los usuarios a identificar las fortalezas y debilidades de cada modelo.
Tareas Soportadas y Métricas
La Open Financial LLM Leaderboard (OFLL) evalúa modelos de lenguaje financiero a través de un conjunto diverso de categorías que reflejan las necesidades complejas del sector. Cada categoría apunta a capacidades específicas, asegurando una evaluación completa del rendimiento del modelo en tareas directamente relacionadas con las finanzas.
Categorías
- Extracción de Información (IE): Estas tareas incluyen el Reconocimiento de Entidades Nombradas (NER) y la Clasificación Causal.
- Análisis Textual (TA): Acoge tareas como el Análisis de Sentimiento y la Clasificación de Noticias.
- Respuesta a Preguntas (QA): Involucra la interpretación de preguntas financieras complejas y la evaluación de la capacidad de modelos para responder a consultas específicas.
- Generación de Texto (TG): Evaluamos la capacidad de los modelos para resumir documentos financieros con coherencia.
- Predicción (FO): Se centra en la habilidad para prever movimientos del mercado.
- Gestión de Riesgos (RM): Evaluamos competencias de los modelos en tareas de detección de fraudes.
- Toma de Decisiones (DM): Simula decisiones financieras complejas.
Métricas
- F1-score: Proporciona una evaluación equilibrada, especialmente importante en casos de desequilibrio de clases.
- Precisión: Mide la proporción de instancias clasificadas correctamente.
- RMSE: Mide la desviación promedio entre las puntuaciones de sentimiento predichas y las reales.
- Puntuación F1 de Entidad: Evalúa el equilibrio entre precisión y recuperación específicamente para las entidades reconocidas.
- Puntuación de Coincidencia Exacta: Mide la proporción de preguntas que corresponden exactamente a la verdad básica.
- ROUGE: Se utiliza para evaluar la calidad de resúmenes comparándolos con resúmenes de referencia.
- BERTScore: Evalúa la similitud entre resúmenes generados y de referencia utilizando embeddings contextuales.
- BARTScore: Evalúa cómo se alinean los resúmenes generados con el resumen de referencia en términos de coherencia.
- Coeficiente de Correlación de Matthews: Proporciona una evaluación del modelo en un contexto de clasificación binaria.
¿Cómo Usar el Open Financial LLM Leaderboard?
Al visitar la plataforma OFLL, serás recibido por la página principal, que proporciona una visión general del leaderboard y un enlace para enviar tu modelo para evaluación.
En la parte superior de la página principal, verás distintas pestañas:
- Benchmark de LLM: La página matriz donde evalúas modelos.
- Enviar aquí: Un lugar para enviar tu modelo para una evaluación automática.
- Acerca de: Más detalles sobre los benchmarks, el proceso de evaluación y los conjuntos de datos utilizados.
Seleccionando Tareas para Mostrar
Para adaptar el leaderboard a tus necesidades específicas, puedes seleccionar las tareas financieras que deseas enfocarte en la sección «Seleccionar columnas para mostrar».
Seleccionando Modelos para Mostrar
Para afinar aún más la lista de modelos que se muestran en el leaderboard, puedes utilizar los filtros de «Tipos de Modelos» y «Precisión» para clasificar los modelos.
Visualización de Resultados en la Tabla de Tareas
Una vez que hayas seleccionado tus tareas, los resultados se llenarán en la tabla de tareas. Esta tabla proporciona métricas detalladas para cada modelo a través de las tareas que has seleccionado.
Enviando un Modelo para Evaluación
Si tienes un nuevo modelo que te gustaría evaluar, la sección de envío permite cargar el archivo de tu modelo. Después de subirlo, el leaderboard comenzará a evaluarlo automáticamente a través de las tareas seleccionadas.
Modelos Actuales y Resultados Sorprendentes
Durante el proceso de evaluación en el Open FinLLM Leaderboard, varios modelos han demostrado capacidades excepcionales en diversas tareas. Actualmente, los modelos más destacados incluyen GPT-4 y Llama 3.1, que han superado a otros modelos en muchas tareas, mostrando alta precisión y robustez en la interpretación del sentimiento financiero.
Agradecimientos
Quisiéramos agradecer a nuestros patrocinadores, incluida la Fundación Linux, por su generoso apoyo en la creación del Open FinLLM Leaderboard. Invitamos a la comunidad a participar en este proyecto continuo enviando modelos, conjuntos de datos o tareas de evaluación. Su compromiso es esencial para mantener el leaderboard como una herramienta integral y en evolución para la evaluación de los LLM en finanzas.
El Open FinLLM Leaderboard es más que una mera tabla de clasificación, es una ventana al futuro de la inteligencia artificial aplicada a las finanzas. Te invitamos a explorar, aprender y contribuir a este emocionante campo en expansión.