Una idea ambiciosa que llegó demasiado tarde
Durante siete años, la startup californiana Kintsugi ha trabajado en una IA capaz de detectar señales de depresión y ansiedad a partir de la voz. Ahora la empresa echa el cierre tras no conseguir a tiempo la autorización de la FDA y, para rematar la jugada, liberará como código abierto buena parte de su tecnología.
Algunos componentes podrían tener incluso una segunda vida fuera de la salud mental, por ejemplo en la detección de audio sintético o manipulado. Porque, por lo visto, si el sector sanitario no tiene prisa, la industria de los fraudes sí la tiene.
Cómo funcionaba la propuesta
La evaluación de la salud mental sigue dependiendo en gran medida de cuestionarios y entrevistas clínicas, no de analíticas o pruebas de imagen como ocurre en otras áreas de la medicina. Kintsugi no se centraba en qué decía una persona, sino en cómo lo decía.
La idea no era precisamente revolucionaria, pero sí útil: las pausas, la velocidad, la estructura de las frases y otros rasgos del habla ya se conocen como indicadores de distintos problemas de salud mental. La compañía sostiene que su modelo podía detectar cambios sutiles que a un observador humano se le escapan con facilidad. Eso sí, no ha explicado en público qué señales concretas impulsan sus predicciones.
En estudios revisados por pares, Kintsugi informó de resultados en líneas generales comparables a los de herramientas de cribado basadas en autoinforme, usando muestras breves de voz.
La apuesta por sustituir o complementar el PHQ-9
La empresa presentó su tecnología como un complemento, o incluso una alternativa, a herramientas como el Patient Health Questionnaire-9 o PHQ-9, una referencia habitual en atención primaria y psiquiatría.
Estos cuestionarios deben usarse junto con una valoración clínica formal. Son útiles y están muy validados, pero también tienen límites bastante humanos:
- las tasas de cribado pueden ser bajas;
- dependen de que el paciente describa bien sus síntomas;
- pueden no recoger todo el abanico de síntomas asociados a un trastorno mental.
Kintsugi defendía que su modelo basado en voz podía aportar una señal más objetiva, ampliar el cribado a más pacientes y escalarse en sistemas sanitarios, aseguradoras y programas para empresas. El pequeño detalle, claro, era pasar por la FDA.
La ruta regulatoria y por qué se atasca tanto
La compañía buscaba la autorización a través de la vía De Novo de la FDA, pensada para dispositivos médicos novedosos y de bajo riesgo que no tienen un equivalente directo en el mercado. En teoría, suena razonable. En la práctica, puede exigir años de recopilación de datos y revisión regulatoria.
La fundadora y consejera delegada, Grace Chang, explicó a The Verge que buena parte del tiempo se fue en enseñar al regulador qué era exactamente una IA y cómo debía evaluarse. Y ahí aparece el problema de fondo: el marco de la FDA encaja mejor con dispositivos tradicionales, como prótesis de cadera, herramientas quirúrgicas o marcapasos, cuyos diseños quedan bastante fijos una vez aprobados.
Con una IA, eso supone un encaje incómodo. Aprobar el sistema puede equivaler a congelar un modelo que, en otro contexto, seguiría mejorándose y actualizándose.
Chang señaló además que, pese al empeño de la administración Trump por reducir trámites y acelerar la llegada de productos de IA al mercado, los expertos regulatorios le trasladan que poco ayuda más allá de, en esencia, mucha presión política. A eso se sumaron varios cierres parciales del gobierno federal, que ralentizaron todavía más el proceso.
Mientras esperaba la presentación final, la empresa se quedó sin financiación.
El dinero se acabó antes que el expediente
Los intentos de captar más capital no funcionaron a tiempo. Ante una tesorería cada vez más corta, Kintsugi rechazó ofertas de financiación a corto plazo que Chang describió como abusivas. Según dijo, una de ellas proponía unos 50.000 dólares por semana a cambio de 1 millón de dólares en acciones.
El equipo prefirió abrir el código de gran parte de su tecnología para que otros pudieran continuar el trabajo. Los inversores, previsiblemente, no aplaudieron la idea con entusiasmo.
Riesgos de abrir una herramienta de cribado mental
Publicar un modelo pensado para detectar depresión o ansiedad también abre la puerta a usos poco deseables. En teoría, podría terminar en manos de empleadores o aseguradoras, fuera de un entorno clínico y sin las salvaguardas habituales en sanidad.
Obviamente no debería pasar, pero una vez que la tecnología se libera, impedir ese tipo de reutilización es bastante más difícil de lo que sería deseable.
Nicholas Cummins, profesor titular de análisis del habla e inteligencia artificial responsable en salud del King’s College de Londres, explicó a The Verge que los lanzamientos abiertos suelen carecer del rastro documental que esperan los reguladores: un historial claro de cómo se entrenó, validó y probó el modelo para garantizar su seguridad. Sin eso, advirtió, llevar al mercado un producto construido sobre esa base puede complicarse bastante.
Su pronóstico más probable es que otras empresas utilicen el modelo como punto de partida y añadan sus propios datos y validaciones. Aun así, recordó que los sistemas de voz siguen siendo imperfectos y que el margen de error es razonable, sobre todo en trastornos como la depresión, que se manifiestan de forma distinta según la persona, el idioma y el contexto cultural. También influye mucho la diversidad y la estructura de los datos de voz usados para entrenarlos.
La otra mitad de la tecnología: detectar voces sintéticas
Chang no descartó las preocupaciones sobre un posible mal uso, pero insistió en que en la práctica le parecen menos graves de lo que sugieren en teoría. En su opinión, las organizaciones con mayor incentivo para abusar de la tecnología son también las que se enfrentan a más barreras para desplegarla. Para ella, el riesgo real es más bien el contrario: que la herramienta se use menos de lo que podría.
No todo el desarrollo de Kintsugi se ha hecho público. Parte de la tecnología se mantiene cerrada, en especial la destinada a detectar voces sintéticas o manipuladas, por motivos de seguridad.
Esa capacidad apareció casi por accidente, cuando el equipo empezó a experimentar con voz generada por IA para reforzar sus modelos de salud mental. Al comprobar que ese audio sintético no contenía las señales vocales que el sistema había aprendido a reconocer, descubrieron que también podía distinguir entre voces humanas y voces creadas por máquinas.
Con la expansión del contenido artificial de baja calidad y de los deepfakes fraudulentos, la utilidad de esa detección está bastante clara. Y, afortunadamente para Kintsugi, no está sometida a la supervisión de la FDA.
Chang no quiso adelantar cuál será su próximo paso ni si esa parte de la tecnología podría reaparecer más adelante. Sí expresó su deseo de que alguien retome el trabajo y consiga llevarlo hasta el final del proceso regulatorio.
Sin cambios de mayor calado, el cierre de Kintsugi difícilmente será el último caso en el que los tiempos de una startup choquen frontalmente con la regulación médica. Y, como suele ocurrir con estas cosas, la parte más sensible del problema no es la idea. Es conseguir que el sistema funcione dentro de las reglas reales, no de las imaginadas en una presentación a inversores.