3. Mirando hacia el futuro: Un mapa de ruta de conjuntos de datos para mejorar el modelo de riesgo de fraude de la Intervención General de España

Este capítulo presenta un mapa de ruta para complementar los datos de subvenciones existentes de la Intervención General de la Administración del Estado (IGAE), con el fin de mejorar los modelos de evaluación de riesgos. Implícitamente, describe conjuntos de datos que pueden enlazar con datos ya existentes de subvenciones de la IGAE, mejorando así la sofisticación analítica y la precisión de la evaluación de riesgos de la IGAE. Como se trató en el Capítulo 2, los modelos de aprendizaje automático están limitados por el alcance y el tipo de datos incluidos en la muestra de entrenamiento. El modelo no puede estimar con precisión las probabilidades de riesgo basándose en información incompleta, porque hay factores claves y mecanismos que determinan los riesgos siguen sin ser considerados. Por tanto, cuanto más completo es el conjunto de datos inicial, más precisos y exactos se vuelven los cálculos de riesgos.

Dado que el universo de conjuntos de datos potencialmente relevantes es enorme, es imperativo reducir la lista de a los más relevantes antes de invertir recursos importantes en el mapeo, tratamiento, vinculación y posterior incorporación de datos a los modelos predictivos. Se deben tener en cuenta tres factores al seleccionar conjuntos de datos adecuados: Accesibilidad, relevancia y calidad. La accesibilidad en este contexto es la facilidad con la que el conjunto de datos se puede obtener de su fuente original, lo que puede incluir cuestiones como si el conjunto de datos se puede descargar públicamente o debe solicitarse. El formato en el que están disponibles los datos también es fundamental, si existe como conjunto de datos descargable, o está constituido por una serie de páginas HTML. La relevancia se refiere al potencial de los elementos de datos para mejorar la sofisticación y precisión analítica. Esto debe evaluarse antes de recopilar los datos. La prueba definitiva de esta evaluación inicial es si los datos mejorarían la precisión predictiva del modelo. Cuando se incluyen demasiadas variables redundantes, el modelo final puede sufrir un sobreajuste. La calidad de los datos en este contexto captura la tasa de valores no omitidos y la fiabilidad de la información. Es probable que los datos de poca calidad con muchos valores omitidos o datos recopilados de manera inexacta sesguen los resultados. Este capítulo solo abarca los conjuntos de datos que se consideren fácilmente accesibles para la IGAE, relevantes para dicho modelo de riesgo y de suficiente calidad.

Los dos capítulos anteriores han descrito el proceso mediante el cual se puede implantar el aprendizaje automático para mejorar el enfoque de la IGAE para identificar riesgos en la concesión de subvenciones y ayudas. El proceso de utilizar conjuntos de datos externos, además de los datos internos existentes, sigue la misma lógica. Primero, se deben definir indicadores de antecedentes y de riesgo para cada conjunto de datos, para identificar los factores que potencialmente influyen en los riesgos de fraude. El siguiente paso es vincular los conjuntos de datos al conjunto de datos interno ya existente. Para hacerlo, se deben tener en cuenta algunas cosas: La unidad de análisis en cada conjunto de datos, la relevancia de la variable, el índice de omisión y la varianza. Como se trataba en el Capítulo 2, el índice de omisión debe ser inferior al 50 %, con una varianza de al menos el 35 %. Además, para fusionar nuevos datos, deben alinearse con la misma unidad de análisis con ID únicas, para evitar filas duplicadas después de la combinación. Hay que descartar las variables que no contienen información útil (es decir que no pueden utilizarse como indicadores).

Por ejemplo, para agregar conjuntos de datos externos a la Base de Datos Nacional de Subvenciones (BDNS) existente, deben tener identificaciones que coincidan con los utilizados en BDNS. Dichas identificaciones incluyen identificaciones de subvenciones, Número de Identificación Fiscal (NIF) español de los beneficiarios y nombres de los órganos concedentes, así como los nombres de los municipios. Esto implica algunas limitaciones. Por ejemplo, actualmente es imposible hacer combinar beneficiarios por sus nombres; solo pueden combinarse por NIF. Además, combinar por municipio acarreará una pérdida significativa de datos, porque alinear los datos con la misma unidad de análisis con identificaciones únicas significa que las puntuaciones de riesgo deben agregarse por municipio. Se aplica una lógica similar a la combinación por nombres de los concedentes y el NIF de los beneficiarios, ya que hay muchos valores idénticos en todos los datos de la BDNS (es decir, el mismo beneficiario puede recibir varias subvenciones o ayudas).

Hay algunas fuentes, unas más fiables que otras, que pueden usarse potencialmente para agregar datos al conjunto de datos existente de la BDNS. En primer lugar, están las fuentes oficiales, como el Registro Nacional de Asociaciones del Ministerio del Interior, que registra las organizaciones no gubernamentales (ONG) acreditadas, la base de datos tributaria de la Agencia Estatal de Administración Tributaria (AEAT) y la Asociación Española de Fundaciones (listas fundaciones acreditadas). Algunos de los datos son de acceso público, mientras que otros están restringidos solo a agencias autorizadas.

Los registros de propiedad efectiva (BO) y los datos de contratación pública también pueden considerarse fuentes oficiales fiables. La ventaja de trabajar con datos oficiales obtenidos directamente de los titulares de datos es que no es necesario verificar la información facilitada, más allá de las verificaciones de calidad de datos estándar utilizadas como parte de las canalizaciones de datos descritas. Los datos oficiales sobre ayudas de la Unión Europea son otro ejemplo de datos fiables.

El siguiente grupo de fuentes son las ONG y asociaciones independientes. Esta información es menos fiable, ya que el proceso de recopilación y verificación de datos no es claro. Si bien las fuentes oficiales probablemente incluyen datos e información primarios, las fuentes secundarias se adquieren de diferentes fuentes o se recopilan manualmente, a menudo sin transparencia sobre cómo se forma el conjunto de datos. Por tanto, estos conjuntos de datos deben usarse con más cuidado y su validez debe verificarse más a fondo. En España, entre dichas fuentes, se encuentran evaluadores independientes de ONG, así como FICESA, una base de datos de altos cargos y directivos.

Hay cuatro grupos principales de datos que son relevantes para vincular con la base de datos BDNS, con el fin de mejorar las evaluaciones de riesgo de fraude de la IGAE. Cada grupo puede facilitar información sobre dimensiones y factores claramente distintos de riesgos de fraude. Algunos datos crean oportunidades para métodos alternativos de análisis, como el análisis de redes, que revelan conexiones entre empresas privadas y personas políticamente expuestas, así como beneficiarios finales y empresas asociadas. Reunir todos estos conjuntos de datos ofrece la oportunidad de realizar la evaluación de riesgos más completa; sin embargo, hacer coincidir solo algunos, o incluso solo un conjunto de datos adicional, puede ser muy útil para mejorar el modelo de riesgo de la IGAE, incluidos los siguientes grupos de datos:

i. Datos organizativos de las partes del proceso de concesión. Este grupo abarca datos sobre concedentes y beneficiarios, así como sobre terceros (como implantadores de proyectos). Las posibles fuentes de información para este grupo son:

  • Registro de empresas e información financiera: proporciona información sobre la estructura organizativa y la historia de la empresa (por ejemplo, cuándo se fundó) y también descubre la situación financiera, como la rentabilidad de la organización.

  • Datos organizativos sobre ONG acreditadas, fundaciones, asociaciones: proporciona información sobre las características del registro, la fiabilidad de la organización y los registros financieros.

ii. Datos sobre conexiones personales y conflictos de interés. Este grupo puede ser útil para identificar conexiones entre cargos de organizaciones privadas que solicitan subvenciones y los responsables políticos que supervisan las subvenciones. Conectar cargos públicos y privados puede resultar útil para seguir investigando posibles conflictos de intereses. Las posibles fuentes de información para este grupo son:

  • El registro de propiedad efectiva (BO): puede ayudar a identificar a los beneficiarios finales, las empresas asociadas y sus registros.

  • Personas políticamente expuestas: ayuda a revelar a las personas a las que se les ha confiado el poder y que son más susceptibles de verse envueltas en sobornos u otras prácticas corruptas.

  • Datos sobre altos cargos y directivos: proporciona nombres de personas potencialmente vinculadas a empresas privadas a través de propiedad legal o propiedad efectiva

iii. Datos sobre fiabilidad de las organizaciones e infracción de normas. Este grupo puede ayudar a predecir riesgos de fraude, al ofrecer información sobre infracciones relevantes, pero solo indirectamente relacionadas, como irregularidades en el pago de impuestos. Este grupo también puede proporcionar información sobre medidas de fiabilidad más suaves, como la acreditación ante la sociedad civil. Las posibles fuentes de información son:

  • Datos sobre quiebras o pagos de impuestos: muestra la fiabilidad de una organización basada en registros financieros pasados:

  • Acreditaciones de ONG: identifica a las ONG acreditadas u otras asociaciones como más fiables.

iv. Datos sobre otros fondos y contratos. La información sobre otras fuentes de financiación y contratos públicos puede revelar factores adicionales que influyen en la probabilidad de fraude, como la doble financiación para la misma actividad. Además, los riesgos de corrupción en contratación pública u otros procesos de financiación pueden apuntar debilidades sistemáticas a escala organizativa y la propensión a cometer fraude. Los conjuntos de datos relevantes en este grupo incluyen:

  • Fondos de la UE: la lista de beneficiarios de ayudas de la UE puede mostrar si la organización recibió financiación doble de diferentes fuentes para el mismo proyecto.

  • Contratación pública: los riesgos de corrupción en los contratos públicos obtenidos de organizaciones o proporcionados por el mismo concedente pueden influir en la posibilidad de irregularidades en subvenciones y ayudas.

La Tabla 3.1 presenta los conjuntos de datos más prometedores en España, que bien son de acceso público o que su contenido y características son de dominio público. Para cada conjunto de datos que pertenece a uno de los 4 grupos de conjuntos de datos, la tabla contiene información sobre la unidad de medida (que se refiere una sola fila), el número de observaciones cuando estén disponibles, la identificación clave para enlazar con la BDNS1 y la prioridad para el futuro trabajo de la IGAE. La tabla destaca los conjuntos de datos de máxima prioridad en la parte superior, teniendo en cuenta las tres dimensiones principales de la evaluación de datos tratadas anteriormente: Accesibilidad, relevancia y calidad. Solo los conjuntos de datos que han obtenido puntuaciones altas en las 3 dimensiones (descarga masiva de datos de fácil acceso, alcance y contenido de datos muy relevantes y calidad adecuada) se han considerado de prioridad alta para la IGAE.

Por el contrario, algunos conjuntos de datos que han obtenido puntuaciones altas en solo una o dos dimensiones se han considerado de prioridad media o baja. Por ejemplo, cuando la accesibilidad a los datos es limitada, la prioridad se consideraba media incluso para los datos que de otro modo se hubieran considerado muy relevantes o de calidad adecuada. La clasificación de los conjuntos de datos en términos de prioridad general establece la ruta detallada para ampliar y enriquecer el conjunto de datos actual de la IGAE y el modelo de riesgo descrito en el Capítulo 2. Las siguientes secciones analizan cada uno de estos conjuntos de datos en detalle, junto con algunos indicadores de riesgo de fraude, que se pueden calcular cuando se conectan datos.

Los datos organizativos de las partes involucradas en la concesión de subvenciones incluyen los concedentes, los beneficiarios y los terceros (es decir, los ejecutores del proyecto). La combinación de datos sobre organizaciones permite obtener una visión más completa y detallada de los controles organizativos ante los riesgos de fraude. Ayuda a identificar características organizativas adicionales que podrían influir en la probabilidad de sanciones. Por ejemplo, la información contable, el tamaño de la empresa y las empresas asociadas pueden ser características útiles para identificar los riesgos de fraude y mejorar el modelo de riesgo de la IGAE en el futuro. Este grupo incluye las siguientes bases de datos: Registradores de España, datos de la Asociación Española de Fundaciones (AEF) y el Registro Nacional de Asociaciones del Ministerio del Interior.

Uno de los conjuntos de datos más relevantes para el propósito de la IGAE y para mejorar el modelo de riesgo es el Registro Mercantil nacional. Contiene datos sobre las empresas, el capital, los representantes (por ejemplo, consejeros y abogados), los actos registrados y la presentación de cuentas anuales (es decir, el desempeño financiero). La lista de variables se presenta en la Tabla 3.2.2

El Registro Mercantil puede cruzarse con el conjunto de datos principal de la BDNS por el NIF de la empresa, o en caso de error, por el nombre de la organización. Casi todos los elementos de datos que contiene el conjunto de datos de empresas son relevantes para la IGAE, en lo referente a mejorar su modelo de riesgo. Estos campos van desde la información básica de registro, como la fecha de creación o el domicilio social, hasta los balances y estados de resultados. Del mismo modo, las variaciones recientes en el patrimonio y la lista completa de accionistas de la empresa pueden proporcionar información adicional sobre posibles conflictos de interés cuando se cruzan con otros conjuntos de datos.

Con respecto a la información básica del registro, existen señales de alerta que han demostrado ser útiles para predecir los riesgos de corrupción y fraude. Por ejemplo, las empresas que se han constituido, o cuyos datos de registro se han modificado poco antes de solicitar una subvención, tienen un riesgo mayor. Del mismo modo, las empresas registradas en las llamadas direcciones de «cementerio de empresas» pueden ser de alto riesgo, donde un gran número de empresas están registradas con altos grados de fluctuación (por ejemplo, miles de empresas creadas y cerradas con la misma sede social cada mes). De manera similar, como se trata en el Capítulo 2, el tipo de organización (es decir, la naturaleza jurídica de la empresa), así como sus ingresos y tamaño generales, pueden influir en el nivel de riesgo de fraude. Por ejemplo, debido a la legislación, ciertos tipos de organizaciones pueden ser menos transparentes o estar menos reguladas (por ejemplo, fideicomisos o propiedad empresarial presentada por acciones al portador).

En cuanto a los datos financieros de la empresa, la IGAE puede tener en cuenta una serie de indicadores relevantes para la predicción de riesgos. Primero, la relación entre gastos e ingresos de una empresa puede proporcionar información sobre si la empresa es rentable. Las empresas que no son rentables son de mayor riesgo en subvenciones y ayudas, ya que pueden utilizar los fondos para pagar sus deudas en lugar de financiar sus proyectos. Del mismo modo, una relación negativa entre los pasivos y los activos de una empresa sugiere un mayor riesgo en términos del uso adecuado de las subvenciones. Los cambios frecuentes en el capital social pueden ser una señal de conflictos internos e inestabilidad dentro de la empresa, lo que aumenta el nivel de riesgo asociado a subvenciones y ayudas para dichas organizaciones. La disminución sistemática de liquidez refleja el estancamiento o la reducción de la actividad de la empresa, lo que también pone en tela de juicio su viabilidad. Combinar los datos de las subvenciones con los datos financieros de la empresa también puede revelar el tamaño relativo de la subvención en comparación con la empresa, ya que las pequeñas empresas que reciben subvenciones importantes pueden ser de riesgo.

Otro conjunto de datos organizativos que la IGAE podría tener en cuenta para su modelo de riesgo, aunque de baja prioridad, es el Registro Nacional de Asociaciones, del Ministerio del Interior. Se trata de un listado de organizaciones que han pasado una revisión realizada por la Agencia Española de Cooperación Internacional para el Desarrollo (AECID), en la que se utilizaron más de 70 criterios cualitativos y cuantitativos, en su mayoría relacionados con la experiencia, solvencia económica, transparencia y recursos humanos. La principal limitación de este conjunto de datos es el pequeño número de ONG acreditadas que proporciona, ya que solo tiene 44 entidades. Se almacenan en formato HTML y se pueden exportar fácilmente a Excel o cualquier otro formato de datos. El directorio de variables se detalla en la Tabla 3.3.

El conjunto de datos proporciona dos ID posibles para enlazar: el nombre de la organización y su número de identificación fiscal (NIF). Ambos se pueden utilizar para vincular los datos a los datos de subvenciones de la IGAE. Los datos constan de tres variables, dos de las cuales son identificaciones y una especifica los sectores precisos en los que la ONG está cualificada para operar. Partiendo de esta información, se pueden crear dos variables binarias: 1) Si la ONG ha sido revisada y 2) si la ONG está actuando en la misma área para la que estaba cualificada (por ejemplo, la ONG estaba cualificada para el sector sanitario, pero recibe subvenciones para el sector de educación). Debido al bajo número de entidades, es poco probable que se produzcan cambios significativos en las calificaciones de riesgo previstas. Sin embargo, si el conjunto de datos principal de la BDNS se filtra solo para las ONG, esta información podría influir en los resultados para este sector.

El tercer conjunto de datos que merece tenerse en cuenta es el de la Fundación Lealtad. Se trata de un evaluador independiente de ONG, que analiza la gestión, gobernanza, uso de fondos, situación económica, voluntariado y transparencia de las ONG. En el sitio web de la fundación existe un archivo PDF descargable con la lista de todas las ONG evaluadas positivamente. Sin embargo, esta lista contiene información limitada más allá del nombre de las organizaciones. Por tanto, un enfoque más eficaz sería acceder a las páginas HTML de cada organización y analizar los datos manualmente. Existe la posibilidad de analizar información de archivos PDF estandarizados denominados «informes completos» para cada ONG. El directorio de variables se detalla en la Tabla 3.4.

Las principales ID mediante las cuales las organizaciones pueden vincularse a los conjuntos de datos de la IGAE son el nombre de la organización y el NIF. Si bien el nombre está disponible en archivos HTML y PDF, el NIF se almacena en el PDF del informe completo. Los datos sobre ingresos, gastos, sector de actividad, año de origen, así como el número de beneficiarios, socios y empleados pueden agregarse a la información de antecedentes para el análisis. Como antes, se puede crear una variable binaria que refleje si la organización en cuestión está verificada o no por la Fundación Lealtad. Además de la información general de antecedentes, se pueden extraer algunos indicadores adicionales de este conjunto de datos. Por ejemplo, se debe tener en cuenta la proporción de gastos para evaluar cuánto se gasta la ONG en su propia gestión en comparación con su misión. Un gasto elevado en gestión podría ser una señal de calificación de riesgo más alta aunque, por sí solo, no sería un indicador de fraude o irregularidades. Las personas en cargos directivos, cuando se cruzan con otros conjuntos de datos (por ejemplo, personas políticamente expuestas), pueden proporcionar información sobre posibles conflictos de intereses.

El segundo grupo de conjuntos de datos que podrían mejorar el modelo de riesgo de la IGAE, descrito en el Capítulo 2, son los datos sobre conexiones personales y conflictos de interés. Vincular datos sobre conexiones personales entre los sectores público y privado abre la posibilidad de rastrear conflictos de interés. Estos datos se pueden analizar mediante análisis de redes, para identificar si existen conexiones entre personas políticamente expuestas y propietarios de las empresas que reciben subvenciones y ayudas. Ya se trataron en el grupo anterior algunas fuentes posibles. Los siguientes apartados se centrarán en el Registro de Propiedad efectiva y FICESA, la base de datos de altos cargos y directivos españoles.

El registro de BO proporciona información de más de 5 000 000 de organizaciones registradas desde 2009. La lista corta de variables se proporciona en la Tabla 3.2. No hay un conjunto de datos completo de dominio público, pero la fuente – una plataforma online para consultar y analizar el Boletín Oficial del Registro Mercantil (LibreBOR) - proporciona una API y un script de Python para analizar los datos.3 Es posible seleccionar aquellas organizaciones que aparecen en los conjuntos de datos de la IGAE, sin analizar todo el conjunto de datos, lo que hará más eficiente el tiempo de tratamiento.

La IGAE tiene dos formas de cruzar los conjuntos de datos de la BDNS con el registro BO: 1) Por nombre de la organización, o 2) por NIF del beneficiario. Como alternativa, es posible agregar datos por provincia y enlazar estos números agregados (por ejemplo, tamaño medio de la empresa) por ubicación particular. El conjunto de datos del BO contiene mucha información de antecedentes para organizaciones, pero la más relevante son los puestos directivos, las organizaciones asociadas y los propietarios efectivos finales. Los datos de propiedad se utilizan mejor cuando se comparan con otros conjuntos de datos, en particular, listas de titulares de cargos políticos (consulte la siguiente sección).

Además, la IGAE puede utilizar parte de la información de antecedentes como predictores de riesgo en sí mismos. Cuando los nombres de los propietarios efectivos de entidades beneficiarias de subvenciones se cruzan con los de los titulares de cargos públicos, es posible identificar conflictos de interés directos (es decir, cuando el beneficiario trabaja para el organismo que concede la subvención) o formas indirectas de conflicto potencial (es decir, cuando el titular del cargo político relacionado trabaja en una organización de nivel superior o en un órgano de supervisión de la organización concedente). Cuando se analizan los datos de propiedad por sí solos, la información sobre las empresas asociadas con el beneficiario puede revelar riesgos si se cruza con otros conjuntos de datos (por ejemplo, formas complejas de conflictos de interés y factores de riesgo relacionados).4

La siguiente fuente es una base de datos de altos cargos y directivos de España llamada FICESA. Esta fuente contiene datos relacionados con altos cargos públicos en una amplia gama de organizaciones públicas: Secretarías de Estado, Subsecretarías, Direcciones Generales y Subdirecciones, Oficinas de Presupuestos, así como diferentes órganos judiciales a escala nacional, regional y local. No son datos de dominio público y los datos deben solicitarse al titular de los datos rellenando un formulario. Por tanto, el formato de los datos y las variables que contiene el conjunto de datos no está claro. No hubo respuesta a los intentos de contactar con la fuente. Se supone que la IGAE podría obtener acceso a la base de datos completa como una descarga masiva.

La única identificación por la que se puede vincular este conjunto de datos son los nombres y, si están disponibles, datos personales adicionales, como la fecha de nacimiento. Si el conjunto de datos de la BDNS contuviera datos sobre propietarios efectivos, como se indica anteriormente, los datos sobre cargos oficiales podrían cruzarse por nombres de personas. Vincular los conjuntos de datos de la IGAE a la información sobre los titulares de cargos de alto nivel crea la posibilidad de realizar análisis de red y ver si existen conflictos de interés entre las organizaciones privadas que reciben subvenciones y los organismos públicos que las conceden. Es especialmente útil utilizar el registro BO para buscar todas las organizaciones asociadas y analizar si están conectadas con personas políticamente expuestas. Por ejemplo, que aunque la organización que recibe la subvención no esté relacionada con nadie de organismos oficiales, una de sus organizaciones vinculadas sí podría estarlo.

Los conjuntos de datos con información sobre fiabilidad organizativa e infracciones de normas o leyes es el tercer grupo de datos que podría ayudar a la IGAE a fortalecer su modelo de riesgo para evaluar los riesgos de fraude de subvenciones. Este grupo quedó cubierto parcialmente en la sección sobre datos de ONG acreditadas. Además, en este grupo, hay conjuntos de datos sobre suspensiones de pagos e impuestos. Cruzar los datos sobre la fiabilidad organizativa y la infracción de normas arroja luz sobre nuevas dimensiones de riesgos de fraude relacionados con otros dominios. Estos conjuntos de datos pueden ayudar a predecir los riesgos de fraude en las subvenciones al explotar las correlaciones entre la fiabilidad de las organizaciones acreditadas, los comportamientos de cumplimiento de normas (deudas fiscales, suspensiones de pagos, etc.) y el fraude en las subvenciones. Partiendo de propuestas anteriores, la siguiente sección se centra en el Registro Público Concursal, los datos fiscales de la AEAT y los datos contables de CINCOnet.

El primer conjunto de datos de este grupo, calificado previamente como una prioridad media para la IGAE, es el Registro Público Concursal. La fuente incluye información de resoluciones procesales, suspensiones de pagos y acuerdos extrajudiciales. Los datos HTML se pueden analizar después de filtrar por provincia o tribunal. Desgraciadamente, por motivos desconocidos, el filtrado no funciona correctamente en el sitio, lo que genera errores en la página. Aun así, el directorio aproximado de variables se presenta en la Tabla 3.6.

Este conjunto de datos se puede cruzar con los datos de subvenciones de la IGAE por el nombre de la organización o por código NIF. La fuente no brinda la oportunidad de revisar todos los casos, lo que requiere un filtrado de antemano, por lo que la forma más fácil de establecer un filtro es por provincia. La información más relevante para las evaluaciones del riesgo de fraude son los detalles sobre la suspensión de pagos. La fuente proporciona ubicación, nombre de la organización, tribunal, juez y NIF u otros identificadores de las empresas. Lamentablemente, no hay información sobre la fecha de los procedimientos concursales, lo que sería especialmente importante para analizar las subvenciones y ayudas anteriores. Después de lcruzar los datos, el indicador de riesgo más relevante para la IGAE sería la variable binaria («bandera») que refleja si el concesionario estaba o se encuentra actualmente en estado concursal. Dicha información sobre la situación de una empresa podría indicar que el beneficiario hará un mal uso de la subvención o ayuda concedida, o al menos que se gestionará esta de forma inadecuada debido a otras presiones organizativas.

El segundo conjunto de datos sobre incumplimiento de normas son los datos de la Agencia Estatal de Administración Tributaria (AEAT). Este es un conjunto de datos con acceso restringido, y solo las estadísticas agregadas son de dominio público. Una vez más, para lo que se trata a continuación, se supuso que la IGAE puede obtener acceso completo a la base de datos, para incorporar dichos datos en su modelo de riesgo. Según las notas publicadas por la AEAT, se dispone de datos en formato desagregado que pueden ser facilitados previa solicitud. Los datos agregados cubren la presentación de declaraciones fiscales, pago de impuestos, deudas y tasas, certificados de impuestos, declaraciones fiscales, etc.

Debido al acceso restringido a los conjuntos de datos, no está claro si las ID son las mismas que en el conjunto de datos BDNS, pero lo más probable es que las entidades se puedan enlazarse por nombre o por NIF del beneficiario. La información sobre el pago puntual de impuestos, deudas y otros cargos es la más relevante para enriquecer los modelos predictivos sobre riesgos de fraude. Los retrasos en el pago de impuestos, así como la existencia de deudas en una determinada empresa (o asociadas) podría ser una señal de mayores riesgos.

El tercer conjunto de datos que pertenece a este grupo son los datos contables y presupuestarios de CINCOnet, considerados de alta prioridad para la IGAE, y las mejoras en el modelo de riesgo. Los datos incluyen operaciones de gasto e importe total de gastos en el año en curso, importe de ingresos en el año en curso, liquidez, operaciones no presupuestarias, gastos de terceros, datos generales de terceros, etc. Como los datos de la AEAT, estos datos no son de dominio público; sin embargo, el Ministerio de Hacienda y Función Pública administra CINCO.net y la IGAE tiene acceso directo.

Las entidades de esta base de datos se pueden cruzar por nombre o NIF del beneficiario con la BDNS. Sin embargo, debido al acceso restringido a los datos, es difícil evaluar la calidad y el contenido de las variables. Además de la información general sobre ingresos y gastos, CINCOnet proporciona datos sobre el reintegro de otras subvenciones concedidas por diferentes organizaciones en España. Esto puede ser especialmente útil en la evaluación de riesgos potenciales en la provisión de subvenciones y ayudas en el futuro, como la doble financiación de operaciones o el gran valor de subvenciones recibidas comparado con los ingresos.

El grupo final de conjuntos de datos abarca un elenco diverso de datos sobre contratos públicos y otras subvenciones y financiación. Ligar datos de otros fondos y contratos permitiría a la IGAE hacer una referencia cruzada del gasto y desarrollar dimensiones de riesgo adicionales. Por ejemplo, puede ayudar a identificar subvenciones acumuladas para las mismas actividades, que deben considerarse un factor de riesgo. Los contratos públicos recibidos por una empresa pueden puntuarse utilizando indicadores de riesgo de corrupción y luego relacionados con riesgos de subvenciones. Por ejemplo, una empresa o agencia (tercero, concedente, concesionario) que participa en licitaciones de alto riesgo también puede presentar riesgo cuando se trata de subvenciones. Este grupo incluye grupos de datos de la Asociación Española de Fundaciones (AEF), Fondos de la Unión Europea y datos de contratación pública.

Los datos de la AEF proporcionan información sobre las fundaciones que conceden subvenciones, entre ella: Su tipo de actividad, zonas geográficas, tipo de beneficiarios, fecha de creación y órganos de gestión. El directorio de variables se presenta en la Tabla 3.7. Los datos son de acceso abierto y se pueden descargar fácilmente en formato Excel o PDF. En total hay 15 840 fundaciones recogidas en el directorio.

Relacionar este conjunto de datos con la BDNS implica varios pasos. Primero, todas las observaciones deben filtrarse por tipo de beneficiario, utilizando el filtrado en tiempo real, ya que el tipo de beneficiario no es un campo de datos en el archivo descargable. En segundo lugar, la ubicación particular debe coincidir con la ubicación de los concedentes o beneficiarios. Esto no proporcionará la información exacta sobre si el beneficiario recibió otra subvención de una fundación determinada, pero indica la presencia de la fundación en el mismo lugar con los mismos tipos de beneficiarios.

La información más relevante para que la IGAE evalúe los riesgos sería si alguno de los beneficiarios recibió doble financiación para las mismas actividades. Para rastrear con precisión dichos riesgos, es necesario verificar los beneficiarios exactamente por sus identificaciones. Sin embargo, esta fuente no proporciona información tan detallada. Por tanto, solo la información agregada, que es mucho más imprecisa, se puede utilizar desde esta fuente. La presencia de una fundación que apoye actividades similares en la misma localidad (provincia) que el concedente o concesionario aumenta la probabilidad de recibir doble financiación.

El siguiente conjunto de datos relevante para que la IGAE valore su conexión con los datos de la BDNS, con prioridad media, sin datos para Fondos de la Unión Europea. El gobierno español y la Comisión Europea proporcionan los datos y disponen de registros desde 2007 a 2020. Los datos son de fácil acceso y se pueden descargar en formato Excel. El directorio de variables relevantes se presenta en la Tabla 3.8.

Los datos proporcionan un código de IVA como identificación para las organizaciones, que se puede convertir en un NIF eliminando las dos primeras letras. Alternativamente, se pueden usar los nombres de organizaciones para enlazar. El número de compromisos presupuestarios, objeto de subvenciones o contratos, así como las fechas de inicio y finalización del proyecto son especialmente relevantes para identificar si el beneficiario recibió financiación de la UE para el mismo proyecto que su subvención española. La doble financiación es una práctica fraudulenta cuando el mismo proyecto es financiado más de una vez por diferentes subvencionadores, sin proporcionar información a ambos sobre las aportaciones realizadas por el otro. Por tanto, el proyecto podría implantarse, pero el dinero público adicional desembolsado no se utiliza como se esperaba.

La última fuente de datos que la IGAE podría valorar vincular con sus conjuntos de datos son los datos de contratación pública nacional. El portal opentender.eu contiene estos datos recopilados de dos fuentes gubernamentales oficiales (el Ministerio de Hacienda y Función Pública y la Plataforma de Contratación), así como el Tender Electronic Daily (TED). Los datos contienen toda la información disponible públicamente sobre licitaciones, contratos, licitadores, contratantes y contratistas necesaria para calcular el indicador de riesgo de corrupción (ver Recuadro 3.1). El directorio de variables relevantes se presenta en la Tabla 3.9.

Las ID de contratistas son las mismas que los NIF de los beneficiarios. Por tanto, esta ID se puede utilizar para cruzar datos. De forma alternativa, los nombres de organizaciones, así como los nombres de concedentes, pueden cruzarse con los contratantes o proveedores del conjunto de datos de contrataciones. Para evaluar si los contratos ganados por empresas licitadoras, o las licitaciones efectuadas por contratantes públicos son proclives a la corrupción, se pueden usar indicadores de aproximación (proxies) de corrupción. Por ejemplo, la licitación única en mercados competitivos, el tipo de procedimiento utilizado, la publicidad de la convocatoria de licitaciones, la duración del anuncio de licitación y el período de decisión, así como conexiones entre el contratista y la autoridad de contrataciones. La recopilación de riesgos de corrupción en contrataciones públicas en las actividades de contrataciones de los beneficiarios o concedentes puede arrojar más luz sobre los riesgos de fraude en subvenciones, ya que es verosímil que las organizaciones con riesgo en un dominio también lo sean en un otros dominio relacionado. Esta lógica de análisis se demuestra empíricamente en Recuadro 3.1.

Este capítulo ofrece una descripción detallada de cómo y por qué diferentes conjuntos de datos se pueden vincular a los conjuntos de datos actualmente existentes de la IGAE, con especial atención a los prometedores indicadores de riesgo de fraude habilitados por los nuevos datos. Estos nuevos indicadores detectan principalmente el comportamiento de los actores, en lugar de simples características de antecedentes, lo que permite una evaluación de riesgos mucho más precisa. Sin embargo, el cruce de datos no solo permite calcular nuevos indicadores en una base de datos y vincularlos entre sí, sino también crear nuevos indicadores basándose en múltiples conjuntos de datos. Estos indicadores complejos ofrecen información adicional sobre dimensiones relevantes de riesgo. También representan una medida más robusta del comportamiento del actor, porque varias fuentes que apuntan al mismo comportamiento tienen mayor validez que un solo conjunto de datos.

El uso de múltiples conjuntos de datos es crucial para caracterizar de manera integral comportamientos complejos de fraude, así como para reducir el índice de falsos positivos, que son frecuentes en modelos simples (Fazekas, M., Ugale, G, & Zhao, A., 2019[2]). Combinar varios indicadores derivados de diferentes conjuntos de datos se considera una buena práctica en la medición del riesgo, ya que permite la triangulación de la medición. En otras palabras, permite aumentar la convergencia de validación. Los falsos positivos son omnipresentes en las evaluaciones de riesgo simples, ya que muchos indicadores simplemente apuntan a posibles irregularidades en lugar de fraudes reales. Además, los indicadores de conflicto de interés generalmente utilizados suelen indicar la presencia de un conflicto potencial en lugar de un conflicto real que represente el abuso de una situación para un beneficio personal indebido. Sin embargo, cuando la información sobre conflictos de interés se combina con datos sobre resultados, como acumulación de subvenciones o desempeño financiero anómalo, la combinación de indicadores proporciona una mayor validez al enfoque de medición.

Cruzar conjuntos de datos que representan múltiples dimensiones de relaciones también puede impulsar el uso de análisis avanzados de red de múltiples capas. Estas relaciones de varios niveles pueden abarcar conexiones entre empresas privadas y organizaciones públicas que otorgan subvenciones a través de una variedad de relaciones contractuales, o vínculos entre los propietarios reales de empresas y personas políticamente expuestas que tienen cargos del sector público. Varias conexiones de red establecidas mediante el uso de conjuntos de datos cruzados de gestión a gran escala también permiten realizar un seguimiento de los cambios temporales en las conexiones entre entidades e individuos potencialmente de riesgo, lo que aumenta la sofisticación analítica del modelado de riesgos.

Esta sección ha revisado una amplia variedad de conjuntos de datos adicionales útiles para el conjunto de datos actual de la IGAE. Al hacerlo, estableció una hoja de ruta para la captura de datos y el cruce que optimiza el valor analítico para la IGAE. De los conjuntos de datos revisados, la información empresarial sobre registro, propiedad y finanzas representa el mayor potencial para perfeccionar aún más el modelo de evaluación de riesgo de fraude. Estos conjuntos de datos se pueden cruzar fácilmente con datos internos de la IGAE utilizando las ID de registros empresariales. Además, cruzar datos de contratación pública con datos de subvenciones, también demostrado mediante el análisis de conjuntos de datos fácilmente disponibles, puede añadir un gran valor, ya que 2 conjuntos de factores de riesgo se pueden triangular entre sí para producir una evaluación de riesgo más fiable. Una vez que estos conjuntos de datos de prioridad alta se incorporan a la canalización de datos de la IGAE, también se pueden considerar otros conjuntos de datos, como el registro concursal.

Referencias

[2] Fazekas, M., Ugale, G, & Zhao, A. (2019), Analytics or Integrity: Data-Driven Decisions for Enhancing Corruption and Fraud Risk Assessments, OECD Publishing, Paris, https://www.oecd.org/gov/ethics/analytics-for-integrity.pdf.

[1] Fazekas, M. and G. Kocsis (2017), “Uncovering High-Level Corruption: Cross-National Objective Corruption Risk Indicators Using Public Procurement Data”, British Journal of Political Science, Vol. 50/1, pp. 155-164, https://doi.org/10.1017/s0007123417000461.

Notas

← 1. En algunos casos, se presume que determinada información está presente en los conjuntos de datos de la IGAE. Sin embargo, la confirmación de esto no fue posible debido a la anonimización de la mayoría de las bases de datos.

← 2. El acceso al conjunto de datos está restringido y exige pagar una tarifa por cada organización y recibir un certificado digital. Solo se permite el acceso libre a los datos agregados por sector, año o sector empresarial. La única información disponible a escala empresarial sin restricciones adicionales es el estado de la empresa (operativa o no). Para que la IGAE utilice estos datos, necesitaría obtener acceso total al conjunto de datos completo y actual, ya sea pagando la tarifa de acceso masivo o llegando a un acuerdo especial con el proveedor de datos del gobierno. También existen alternativas públicas de fácil acceso, por ejemplo, opencorporates.com, que es una empresa social privada que tiene como objetivo hacer que todos los datos empresariales sean fácilmente accesibles en todo el mundo.

← 3. Consulte https://docs.librebor.me/python/.

← 4. Debido al acceso restringido a la fuente, no está claro si la información sobre los propietarios efectivos está allí. Sin embargo, está presente en el registro mercantil, por lo que es razonable esperar que también contenga una variable en LibreBOR. En caso de que no lo sea, la información se puede obtener del registro de la empresa después de recibir un certificado electrónico.

Metadata, Legal and Rights

Tanto este documento, así como cualquier dato y cualquier mapa que se incluya en él, se entenderán sin perjuicio respecto al estatus o la soberanía de cualquier territorio, a la delimitación de fronteras y límites internacionales, ni al nombre de cualquier territorio, ciudad o área. Los fragmentos extraídos de las publicaciones pueden estar sujetos a descargos de responsabilidad adicional recogidos en la versión completa de la publicación que se encuentra disponible en el enlace suministrado.

© OCDE 2021

El uso del contenido del presente trabajo, tanto en formato digital como impreso, se rige por los términos y condiciones que se encuentran disponibles en: http://www.oecd.org/termsandconditions.