Tbme.2010.2046325 (1) .En - Es
Tbme.2010.2046325 (1) .En - Es
Tbme.2010.2046325 (1) .En - Es
com
1954 TRANSACCIONES IEEE SOBRE INGENIERÍA BIOMÉDICA, VOL. 57, núm. 8 DE AGOSTO DE 2010
Abstracto—Proponemos una técnica novedosa para evaluar la Se encuentra entre las series de tiempo correspondientes. Se han
conectividad cerebral funcional en señales electroencefalográficas propuesto diferentes medidas para cuantificar esta influencia, la
(EEG)/magnetoencefalográficas (MEG). Nuestro método, llamado
mayoría de ellas formuladas en términos de espectro cruzado (p.
análisis de fuentes escasamente conectadas (SCSA), puede superar el
problema de la conducción de volumen modelando datos neuronales de
ej., índice de coherencia y pendiente de fase [1]) o modelos
manera innovadora con los siguientes ingredientes: 1) se supone que autorregresivos (AR) (p. ej., causalidad de Granger [2], función de
EEG/MEG es una mezcla lineal de fuentes correlacionadas siguiendo un transferencia [3] y coherencia dirigida parcial [4], [5]).
autorregresivo multivariado ( modelo MVAR); 2) la desmezcla se estima
conjuntamente con los parámetros MVAR de origen; y 3) se evita el
sobreajuste mediante el uso de la penalización del lazo grupal. Este B. Problema de conducción de volumen en EEG y MEG
enfoque nos permite extraer el nivel apropiado de diafonía entre las
fuentes extraídas y, de esta manera, obtenemos un modelo de
En EEG y magnetoencefalografía (MEG), los sensores se colocan
conectividad funcional basado en datos dispersos. Demostramos la fuera de la cabeza y surge el problema de la conducción del volumen,
utilidad de SCSA con datos simulados y los comparamos con varios es decir, en lugar de medir la actividad de un solo sitio del cerebro,
algoritmos existentes con excelentes resultados. cada sensor captura una superposición lineal de señales de todo el
Términos del Índice—Análisis convolutivo de componentes cerebro. Esta mezcla introduce correlaciones instantáneas en los datos
independientes (ICA), electroencefalográfico (EEG), conectividad del sensor, lo que puede hacer que los análisis tradicionales detecten
funcional, Causalidad de Granger, magnetoencefalografía (MEG), conectividad espuria [6].
modelo AR multivariado de fuente (MVAR).
se han utilizado de formas más sofisticadas para encontrar directamente del argumento de Granger de que la causa siempre debe
descomposiciones EEG/MEG que reflejen mejor la fisiología [9]-[12]. preceder al efecto. Decimos que series de tiempozitiene una influencia
En este artículo, primero proponemos un procedimiento de un solo causal en las series de tiempozjsi el presente y el pasado de la serie
paso para estimar todos los parámetros (es decir, la matriz de mezcla y temporal combinadaziyzjpuede predecir mejor el futuro dezj
los coeficientes AR multivariados (MVAR)) del modelo de mezcla lineal que el presente y el pasado dezjsolo. En el caso bivariado, esto
de fuentes MVAR [12] basado en ICA convolutivo de dominio temporal equivale a decir que por lo menos unapag∈ {1, . . . , PAGS}, el
(CICA). ), en lugar de la combinación de ajuste de parámetros MVAR y coeficienteh(pagJi) correspondiente a la interacción entrezj
desmezcla mediante ICA instantáneo. Además, el enfoque nos permite yzien elpagEl desfase de tiempo es distinto de cero (significativamente diferente
integrar un supuesto de escasez sobre la conectividad cerebral, es de cero). En el caso multivariado, la causalidad de Granger también incluye
decir, sobre las interacciones entrefuentes cerebrales subyacentes. La causas indirectas no contenidas en no desvanecimientoh(pag) Ji.
escasez adicional previa puede evitar el sobreajuste en aplicaciones
prácticas y produce estimadores más interpretables de la conectividad
B. Modelo de fuentes correlacionadas
cerebral. Observamos que es difícil incorporar antecedentes tan
escasos en MVARICA (es decir, MVAR + ICA, [12]), ya que MVAR se ajusta En este artículo, proponemos un método para separar la
a los (componentes principales de)señales de sensores,donde las señal EEG/MEG en fuentes que interactúan causalmente.
interacciones (es decir, coeficientes MVAR) no son escasas debido a la Partimos del mismo modelo que en [12]: se supone que la
conducción del volumen [12]. medición del sensor se genera como una mezcla lineal
El resto del artículo está organizado de la siguiente manera. En la instantánea de fuentes, que siguen un modelo MVAR.
Sección II, nuestro procedimiento se explicará paso a paso. El modelo X(t) =METROs(t) (1)
de fuente correlacionada asumido en este artículo se definirá en la
Sección II-B. El procedimiento de identificación llamado Análisis de ∑PAG
Fuentes Conectadas (CSA) basado en CICA se introducirá en la Sección
s(t) = h(pag)s(t-p) +ε(t) (2)
pag=1
II-C y seguido por su versión dispersa, SCSA con el lazo de grupo
anterior en la Sección II-D. Las relaciones de nuestros métodos con dóndeX(t)es elD-señal EEG/MEG dimensional en el momentot,METRO
enfoques existentes, como MVARICA y CICAAR (CICA con un modelo es unD×Dmatriz de mezcla que representa el efecto de conducción de
inverso AR [13]) se aclararán en detalle en la Sección II-E. Finalmente, volumen, ys(t)es la señal desmezclada (fuente). Las fuentes en ese
los algoritmos de optimización para CSA y SCSA se explicarán en la momentotse modelan como una combinación lineal de susPAGvalores
Sección II-F. Implementamos dos versiones para SCSA, una basada en pasados más un término de innovaciónε(t), según un modelo MVAR
el algoritmo Broyden-Fletcher-Goldfarb-Shanno (L-BFGS) de memoria con matrices de coeficientesh(pag).En el análisis MVAR estándar, la
limitada y la otra en un algoritmo de maximización de expectativas innovaciónε(t)es una secuencia no correlacionada temporal y
(EM), que es más lento, pero numéricamente más estable. La Sección III espacialmente de vectores distribuidos gaussianos. Por el contrario,
proporcionará nuestros resultados experimentales sobre secuencias de asumimos aquí que es independiente e idénticamente distribuido (iid)
datos simuladas que emulan grabaciones de EEG realistas. La en el tiempo y que los componentes están sujetos a distribuciones no
plausibilidad de nuestro modelo fuente correlacionado se discutirá con gaussianas para poder aplicar técnicas de separación ciega de fuentes
futuras direcciones de investigación en el contexto de la neurociencia (BSS) basadas en estadísticas de orden superior [12], [13 ].
computacional (ver Sección IV), antes de las observaciones finales (ver Para simplificar, tratamos el caso en el que el número de sensores y
Sección V). fuentes es igual y la matriz de mezclaMETROes reversible. Cuando existen
menos fuentes que sensores, el problema cae en la configuración actual
II. CSACONSPARSIDADPAGRIO después de ser preprocesado por PCA [12]. Según los supuestos de nuestro
modelo, la secuencia de innovación se puede obtener mediante un filtrado
A. MVAR para modelar interacciones causales
de respuesta de impulso finito (FIR) de la observación, es decir,
Los modelos AR se utilizan con frecuencia para definir relaciones
"Grangercausales" dirigidas entre series temporales. El procedimiento
∑PAG
original de Granger implica la comparación de dos modelos para predecir
ε(t) =METRO−1X(t)− h(pag)METRO−1X(t-p) (3)
una serie de tiempo.zi,que contiene valores pasados deziyzj,ozi
pag=1
Curiosamente, en un enfoque algo inverso, [18] también descubrió llevando algunos coeficientes exactamente a cero. En [5], se señala que mediante
recientemente la interpretación causal de Granger de un modelo tan el uso de la llamada penalización de lazo grupal [20], se pueden eliminar
convolutivo. Debido al supuesto de no gaussianidad sobre la conexiones completas entre series temporales a la vez. En este enfoque, todos
innovaciónε(t), podemos utilizar técnicas BSS basadas en estadísticas coeficientesh(pag
yo), pag=1, . . . , PAG,modelando el flujo de información
de orden superior para identificar el filtro inverso{W.(pag)}. Dado que desiasjestán agrupados y sólo se pueden podar de forma conjunta.
nos gustaría imponer una conectividad escasa como información Tenga en cuenta que, además del modelado MVAR, dicha dispersión
previa plausible más adelante, es preferible aplicar algoritmos CICA de grupal se ha aplicado en varias tareas de aprendizaje diferentes en
dominio temporal. Los coeficientes FIR obtenidos.{W.(pag)}identificar neuroimagen, por ejemplo, [21]-[25].
directamente la matriz de mezclaMETROy el modelo MVAR del mismo Desde el punto de vista práctico, la suposición de una conectividad escasa
ordenPAG. es muy atractiva, ya que menos conexiones son mucho más fáciles de
interpretar. Pero asumir una conectividad escasa en los datos de fMRI
C. Identificación por parte del CICA también se justifica por estudios de las características numéricas de la
conectividad de la red en bases de datos anatómicas del cerebro (ver [14] y
Utilizamos CICA de dominio temporal para inferir efectos de conducción
las referencias allí). Este razonamiento también se aplica a los datos de EEG y
de volumen e interacciones causales entre señales cerebrales extraídas. Los
MEG.
parámetros del modelo pueden identificarse basándose en supuestos leves
Observamos que, además del enfoque basado en penalizaciones, existen
de que las innovaciones no son gaussianas y (espacial y temporalmente)
otras estrategias para obtener gráficos de conectividad dispersa. Por
independientes. Para los datos de EEG y MEG, se prefiere una distribución
ejemplo, se puede lograr una dispersión post-hoc para estimadores densos
supergaussiana a una subgaussiana, suponiendo que la actividad continua
mediante pruebas estadísticas [5], [26]. Sin embargo, debido a la
de las redes cerebrales se desencadena mediante explosiones locales
convincente regularización incorporada, aquí adoptamos la dispersión del
espontáneas. Aquí adoptamos la distribución sech supergaussiana
lazo de grupo.
propuesta en [13]. La probabilidad de
El supuesto de escasez sólo es razonable para los coeficientes
los datos bajo el modelo son entonces
MVAR{h(pag)}, pero no para elW.(pag)matrices que combinan
pag({X(t)}tt=PAG+1|{W.(pag)}) coeficientes MVAR y la desmezcla instantánea. Por lo tanto, para
aplicar una regularización dispersa, hay que dividir el
∏t ∏ D1
=|W.(0)|T-P sech(εd(t)) (6) parámetros en partes desmezcladas y MVAR nuevamente, como en el modelo
t=PAG+1d=1
π original (1) y (2). Dado que los elementos fuera de la diagonal{h(pag)}
corresponden a la interacción entre fuentes, proponemos ponerles una
∑PAG
dóndeε(t) =METRO−1X(t)− pag=1h(pag)METRO−1X(t-p)ytes penalización de lazo grupal de manera análoga a [5], es decir, penalizamos
el número de muestras de tiempo disponibles. La función de costos a la suma de la-2-normas de cada uno de los grupos{h(pag) df}, d -=F.
minimizar es la probabilidad logarítmica negativa
DejarB:=METRO−1(=W.(0)),s(t) =BX(t), y s(t) =
∑PAG
l({W(pag)}) = (PAG-T)registro|W.(0)| pag=1h(pag)s(t-p). La función de costo regularizado es
∑t ∑ ( D ) lSCSA(B, {H(pag)})
1
− sech(ε d(t)). (7) ∑∥ ( )∥
π
registro
∥ ∥
t=PAG+1d=1 = (PAG-T)registro|B|+λ ∥h(1) df, . . . , h(PAG
df) ∥
2
La solución de (7) conduce a los estimadores de la matriz de mezcla. d-=F
Fig. 1. Relaciones entre (a) SCSA, (b) MVARICA y (c) CICAAR. Todos los enfoques F. Optimización
asumen una secuencia de innovación no gaussiana.ε. SCSA y MVAR-ICA ajustan un
modelo IIR a la secuencia observadaX, mientras que CICAAR asume un filtro FIR 1) CSA:El gradiente de la función de costos no regularizados (7) se obtiene
para ello. Por lo tanto, en SCSA y MVARICA, el filtro inverso deXa la innovaciónεes
de la siguiente manera:
un FIR. MVARICA es un enfoque de dos pasos en el que AR se ajusta a la secuencia
∂l ( −
)
observada.Xy desmezcla espacial de la innovaciónMεobtenido en el primer paso.
Por otro lado, SCSA es un enfoque de un solo paso que calcula el filtro FIR inverso =δ(pag) (PAG-T)W.(pag) mid
mediante CICA. Observamos que el ajuste AR en MVARICA se basa únicamente en ∂W(pag
d )
estadísticas de segundo orden, lo que puede causar caídas de rendimiento en ( )
comparación con CSA. ∑t ∑PAG
+ tanh W.(pag
d ) X(t-p)X(t-p) (10)
t=PAG+1 pag=0
Nuestro algoritmo L-BFGS modificado comprueba antes de cada gra- función de pérdida en términos desse define de la siguiente manera:
∑t ∑ ( D )
11),
. . . ,h(1) DD, . . . ,
evaluación de los pacientes, si‖(h(1)11, . . . ,h(PAG 1
h(PAG) lMETRO(s) =− sech (s̃d(t)−sd(t)) . (13)
df)) ‖2,d -=F π
registro
df, . . . , h(PAG
DD)‖2o algunos de los términos‖(h(1)
t=PAG+1d=1
ya son (cerca de) cero. Si alguno de los términos es igual a cero, el
El gradiente es
gradiente no se define de forma única, sino como un conjunto
∂lMETRO
(subdiferencial). Sin embargo, es sencillo calcular el elemento del = tanh(s̃d(t)−sd(t)) (14)
subdiferencial con la norma mínima, cuya inversión de signo es ∂sd(t)
siempre una dirección descendente. Hay que tener cuidado porque, en Dejarad(t) (d=1, . . . , D,t=PAG+1, . . . , t)denota las variables
la práctica, no encontraríamos ninguno de los términos antes duales asociadas con la transformada de Legendre. La función de
mencionados exactamente igual a cero. Así, truncamos los elementos pérdida conjugada se define en el intervalo [−1,1]y evalúa a
dehcorrespondiente a los términos con normas pequeñas por debajo DMETRO(a)
de algún umbral a cero antes de calcular el subgradiente de norma
∑t ∑ D ( )
mínima. Si efectivamente se alcanza el mínimo en el punto truncado, el sech (s̃d (t)−s (td ) )
= sorber − ad(t)sd(t) + yo og
subgradiente de norma mínima será cero. De lo contrario, el
t=PAG+1d=1 s̃d(t)
π
subgradiente sacará la solución de cero. En la práctica se debe tener (
más cuidado para evitar que la solución oscile dentro y fuera de algún ∑DT∑ 1−a d(t) 1−a (td)
= registro
cero. 2 2
t=PAG+1d=1
Encontramos que utilizando el procedimiento de optimización descrito se
)
pueden encontrar soluciones dispersas en menos tiempo, si se utiliza la 1 + und(t ) 1 + und ( t) 2
solución de la función de costos no regularizada como inicializador. El punto + − ad(t)sd(t) . (15)
π
registro + iniciar sesión
2 2
de partida se puede obtener utilizando la transformación inversa de (5).
3) SCSA mediante un algoritmo EM:Utilizando la optimización
El gradiente de la pérdida conjugada viene dado por
conjunta de By{h(pag)}, la poda heurística de conexiones podría en
algunos casos conducir a soluciones subóptimas con respecto a la ∂DMETRO(a) 1 1 + und (t)
función de costos compuesta. Por esta razón, presentamos un = registro − sd(t). (dieciséis)
∂ad(t) 2 1−ad(t)
esquema de optimización alternativo, que no requiere ningún paso
heurístico. La idea aquí es alternar entre la estimación de ambas El hessiano es diagonal con elementos.
incógnitas. Hacerlo puede justificarse como una aplicación del ∂2DMETRO(a) 1
algoritmo EM (ver [28]). = . (17)
∂ad(t)2 2(1−a2 d(t))
Estimación deBdado{h(pag)}(aquí llamado paso E) equivale a resolver
un problema de optimización no lineal sin restricciones. Es importante Habiendo definido los pasos E y M, hemos convertido un problema
destacar que este problema también es convexo, en contraste con el de estimación no convexa en una secuencia de dos problemas
enfoque conjunto para el ajuste de parámetros SCSA. La convexidad se convexos, los cuales pueden resolverse exactamente. Ahora se puede
deriva de la concavidad deregistro|X|yregistro(sech(hacha))para obtener una estimación final de los parámetros del modelo alternando
constantea(y del hecho de que la suma de funciones convexas es entre los pasos E y M hasta la convergencia.
convexa). La gran ventaja de los problemas convexos es que presentan
un mínimo único (local y global). En nuestro caso, el objetivo es suave; III. PAGRENDIMIENTOUd.NDERREALISTICOCCONDICIONES
por lo tanto, se garantiza que el algoritmo L-BFGS encontrará el
Realizamos las siguientes simulaciones para evaluar el
mínimo, haciendo uso del gradiente en (12).
rendimiento del análisis de conectividad de fuente propuesto en
Optimización con respecto a{h(pag)}para fijoB(Paso M) es más complicado,
comparación con los de los enfoques existentes.
ya que permanece el regularizador de lazo de grupo no diferenciable. Es
poco probable que los métodos de optimización fluidos como L-BFGS
A. Generación de datos
encuentren la solución exacta en este caso. Sin embargo, este problema no
es tan difícil como el problema de optimización conjunta, ya que es convexo. Simulamos siete series temporales (pseudofuentes) de longitud
Esto se puede ver por el hecho de que está compuesto por una suma de− norte=2000,según un modelo de orden MVARPAG=4.Siete de las 42
registro(sech(hacha))términos (función de pérdida) y el término del lazo de interacciones posibles se modelaron permitiendo que el
grupo (regularizador), que es una suma de-2-normas y, por tanto, convexas. coeficientes MVAR fuera de la diagonal correspondientesh(pag) df, d -=F,1≤
Por lo tanto, podemos resolver este problema utilizando el procedimiento pag≤PAGser distinto de cero. Las innovaciones se extrajeron de la
Lagrangiano dual aumentado (DAL) [29], que se ha introducido distribución sech (tenga en cuenta que el supuesto de no gaussianidad
recientemente como un método para minimizar funciones de pérdida es crucial para recuperar fuentes mixtas).
convexas arbitrarias con penalizaciones de lazo o lazo de grupo adicionales. Las pseudofuentes se asignaron a 118 canales de EEG utilizando la
La aplicación de DAL requiere la función de pérdida y su gradiente, el dispersión teórica de siete dipolos colocados al azar. La extensión se calculó
conjugado convexo (transformada de Legendre) de la función de pérdida, utilizando un modelo frontal realista [30] que se construyó a partir de
así como el gradiente y el hessiano de la imágenes anatómicas de resonancia magnética de la "cabeza de
pérdida conjugada. Dejars(t) =BX(t)ser las fuentes desmezcladas y Montreal" [31]. En la Fig. 2 se puede ver un ejemplo que ilustra la generación
∑ PAG
s(t) = pag=1h(pag)s(t-p)sean sus aproximaciones AR. El de datos.
HAUFEet al.: MODELADO DE CONECTIVIDAD ESPARCA ENTRE FUENTES CEREBALES SUBYACENTES PARA EEG/MEG 1959
‖METRO(s(1), . . . ,s(t))‖F
SNR = (19)
‖(ξ(1), . . . ,ξ(t))‖F
C. Medidas de desempeño
lograda mediante una regresión lineal de mínimos cuadrados de uno a otro métodos de desmezcla proporcionan estimaciones de conectividad integradas. Sin
patrón. Para un patrón verdaderoMETROdy un patrón estimadoMETROF,el embargo, para SCSA, el análisis de interacción también podría haberse realizado
METROF METROd
C(METROd, M̂F) = (20)D. Resultados
2
‖METROF‖
La figura 3 muestra qué tan bien se aproximó la matriz de mezcla
y el GOF es mediante los diferentes enfoques. Se dibuja un diagrama de caja para el
‖cmF − d
METRO‖
caso sin ruido (N0) y cada una de las seis variantes ruidosas (N1-N6, consulte
GOF(METROd, M̂F) = . (21) la Tabla I). Los gráficos muestran el rendimiento medio en 100 repeticiones,
‖METROd‖
así como los cuartiles inferior y superior y los valores extremos. Se
Habiendo encontrado el emparejamiento óptimo, las columnas de eliminaron los valores atípicos (cruces rojas). Como resultado de las
METROfueron permutados y escalados para aproximarseMETROlo simulaciones, SCSA normalmente logra el error de reconstrucción más
mejor posible utilizando los coeficientes de regresión óptimos. El GOF pequeño, seguido de CSA, CICAAR, MVARICA e ICA. En muchos casos, las
con respecto a toda la matriz.METROSe utilizó para evaluar la calidad diferencias también son significativas (las muescas no superpuestas de dos
de las diferentes descomposiciones. Además, utilizando los patrones de cuadros indican que las dos medianas difieren al nivel de significancia del
mezcla óptimos, se realizaron exploraciones dipolares, es decir, para 5%).
cada ubicación discreta en el cerebro (tamaño de cuadrícula de 5 mm), La estimación correcta de la matriz de (des)mezcla afecta tanto el error de
se instaló una fuente de corriente dipolar. Se determinó la ubicación localización que se puede lograr aplicando métodos inversos a los patrones
del dipolo que mejor explica el patrón EEG. Se midió la desviación de estimados como el error de cualquier análisis de conectividad realizado en
estas ubicaciones de las reales. En la Fig. 2 se muestra un ejemplo las fuentes desmezcladas. Como resultado de una buena aproximación de la
típico de un patrón de mezcla estimado por SCSA y el dipolo matriz de mezcla, SCSA también logra errores de localización de dipolos más
reconstruido correspondiente. pequeños que todos los demás métodos, excepto en un escenario, como se
Finalmente, según [5], el descubrimiento causal se llevó a cabo en muestra en la Fig. 4. La misma situación ocurre cuando se trata de estimar la
las fuentes desmezcladas. La técnica exacta utilizada fue la estimación conectividad entre fuentes (ver Fig. 5).
de MVAR con regresión de crestas. Para los parámetros MVAR En cuanto a la influencia del ruido, se podría decir que la degradación
estimados mediante regresión de crestas, se puede derivar una relativa del rendimiento en presencia de ruido es la misma para todos los
distribución gaussiana multivariada aproximada, que se utilizó para métodos. Generalmente, el ruido que es colineal con las fuentes (N2/N5)
probar que los coeficientes fueran significativamente diferentes de conduce a un mayor rendimiento que el ruido que no está correlacionado
cero. una influencia desiasjse definió, si elpag-valor de uno de los entre sensores (N1/N4) y el ruido con una estructura de correlación espacial
coeficientesh(pag
yo,) pag=1, . . . , PAG,cayó por debajo del valor crítico. Como arbitraria (N3/N6). Estas diferencias se explican parcialmente con la
Un tercer criterio de desempeño, la puntuación del área bajo la curva (AUC) efectividad del paso PCA realizado para la reducción de dimensionalidad. La
para descubrir correctamente la estructura de interacción, se calculó varianza total promedio explicada por el subespacio PCA fue del 96% para
variando el umbral de significancia y comparando la matriz de conectividad los tipos de ruido N1/N4 y del 81% para los tipos de ruido N3/N6, mientras
estimada y verdadera para cada umbral. Tenga en cuenta que esto que fue del 100% para el ruido colineal.
HAUFEet al.: MODELADO DE CONECTIVIDAD ESPARCA ENTRE FUENTES CEREBALES SUBYACENTES PARA EEG/MEG 1961
IV. DDISCUSIÓN
Recordemos las suposiciones que hacemos para identificar fuentes
Figura 5. Errores de estimación respecto de la estructura de conectividad de la fuente como medida. cerebrales individuales y estimar sus interacciones. Si bien la ICA da como
Esto se garantiza ajustando posteriormente un modelo MVAR a las fuentes desmezcladas y resultado una descomposición única asumiendo independencia estadística,
probando los coeficientes obtenidos para determinar si hay interacción significativa. La medida
tal suposición es inconsistente cuando se estudian las interacciones
de desempeño informada es la puntuación AUC obtenida variando el nivel de significancia.
cerebrales. Sin embargo, todas las interacciones neuronales requieren un
retraso mínimo dentro de la resolución temporal de las mediciones
N2/N5. Como consecuencia, sugerimos que, en la práctica, una regla del 99% electrofísicas de la actividad cerebral. Por lo tanto, tiene sentido asumir
debería ser la más adecuada, incluso si el número de fuentes puede estimarse de procesos de innovación independientes y modelar todas las interacciones
manera aproximada. explícitamente utilizando matrices AR. En relación con ICA, pagamos un
Como se muestra en el panel derecho de la Fig. 6, el rendimiento de precio por ello: en nuestro caso, la independencia se explota eficazmente
todos los métodos disminuye al disminuir la SNR, mientras que la diferencia con la información reducida contenida en los residuos del modelo. En
entre los métodos permanece bastante estable en todos los niveles de SNR. principio, esto puede ser una causa de estimaciones menos estables. Para
El panel izquierdo de la Fig. 6 muestra que la superioridad de los métodos aumentar la estabilidad, hemos incluido suposiciones de escasez basadas en
propuestos aquí (CSA y SCSA) sobre CICAAR, MVARICA e ICA es estable la idea de que sólo unas pocas conexiones cerebrales pueden ser tan fuertes
incluso bajo variación del grado de conectividad. Sólo que las variantes SCSA como para ser observables en los datos de EEG, lo que es especialmente
parecen perder su ventaja sobre CSA en casos de estructura de conectividad cierto en presencia de artefactos y ruido de fondo.
muy densa. Esto es algo inesperado, ya que SCSA proporciona un
mecanismo (evaluación del error de predicción fuera de muestra) para Hacemos hincapié en que los métodos BSS que explotan estadísticas de
ajustarse a la cantidad real de conectividad. En algunos casos, los datos orden superior sin utilizar información temporal fallarían por completo si los
aparentemente podrían datos tuvieran una distribución gaussiana (cf., el análisis empírico).
1962 TRANSACCIONES IEEE SOBRE INGENIERÍA BIOMÉDICA, VOL. 57, núm. 8 DE AGOSTO DE 2010
evaluación por [12]). Los procesos tienden a ser supergaussianos si no [6] G. Nolte, O. Bai, L. Wheaton, Z. Mari, S. Vorbach y M. Hallett, "Identificación de la
siempre están activos, lo cual es una suposición razonable para las verdadera interacción cerebral a partir de datos de EEG utilizando la parte
imaginaria de la coherencia".Clínico. Neurofisiol., vol. 115, págs. 2292-2307,
fuentes cerebrales y más aún para los artefactos, que también deben octubre de 2004.
incluirse en el modelo. Aquí, asumimos un modelo dinámico lineal y [7] AG Guggisberg, SM Honma, AM Findlay, SS Dalal, HE Kirsch,
procesos de innovación supergaussianos, es decir, la única causa de la MS Berger y SS Nagarajan, "Mapeo de la conectividad funcional en pacientes
con lesiones cerebrales".Ana. Neurol., vol. 63, págs. 193–203, febrero de
no gaussianidad es el proceso de innovación en sí. Las redes cerebrales 2008.
reales son, por supuesto, más complicadas. Sin embargo, la cuestión de [8] L. Astolfi, F. Cincotti, D. Mattia, C. Babiloni, F. Carducci, A. Basilisco,
si los modelos dinámicos no lineales pueden mejorar los resultados o PM Rossini, S. Salinari, L. Ding, Y. Ni, B. He y F. Babiloni, "Evaluación de la
conectividad funcional cortical mediante estimación inversa lineal y función
incluso son esenciales para una descomposición correcta está más allá de transferencia dirigida: simulaciones y aplicación a datos reales".Clínico.
del alcance de este artículo y se abordará en el futuro. De manera Neurofisiol., vol. 116, págs. 920–932, abril de 2005.
[9] L. Marzetti, C. Del Gratta y G. Nolte, "Comprensión de la conectividad cerebral a partir de
similar, asumimos que el número total de fuentes es menor o igual al
datos de EEG mediante la identificación de sistemas compuestos de fuentes que
número de canales. Aparentemente, la importancia de este problema interactúan".NeuroImagen, vol. 42, págs. 87–98, agosto de 2008.
disminuye cuando se utiliza una gran cantidad de canales. [10] G. Nolte, L. Marzetti y P. Valdés Sosa, “Análisis de componentes de superposición
mínima (MOCA) de datos EEG/MEG para más de dos fuentes”.J. Neurosci. Métodos,
vol. 183, págs. 72 a 76, septiembre de 2009.
VCONCLUSIÓN [11] PA Valdés-Sosa, M. Vega-Hernández, JM Sánchez-Bornot,
E. Martı́nez-Montes y MA Bobes, “Imágenes de fuente EEG con análisis de
Analizar la conectividad cerebral funcional es un problema desafiante, ya
componentes independientes no negativos tomográficos espaciotemporales”.
que los efectos de conducción de volumen en las mediciones de EEG/MEG Tararear. Mapa cerebral., vol. 30, págs. 1898-1910, junio de 2009.
pueden dar lugar a efectos espurios. En este artículo, hemos establecido un [12] G. Gómez-Herrero, M. Atienza, K. Egiazarian y JL Cantero, “Medición del
acoplamiento direccional entre fuentes de EEG”.NeuroImagen, vol. 43, págs.
nuevo método de análisis de conectividad SCSA que supera estos problemas
497–508, noviembre de 2008.
de una manera elegante y numéricamente atractiva. En detalle, EEG/MEG se [13] M. Dyrholm, S. Makeig y LK Hansen, “Selección de modelo para ICA
modela como una mezcla lineal de fuentes correlacionadas, luego, convolutiva con una aplicación al análisis espaciotemporal de EEG”.
Computación neuronal., vol. 19, págs. 934–955, abril de 2007.
estimamos conjuntamente el proceso de desmezcla y el modelo MVAR (que
[14] PA Valdés-Sosa, JM Sánchez-Bornot, A. Lage-Castellanos, M. Vega-Hernández,
es la base del modelo para las fuentes correlacionadas). Para evitar el J. Bosch-Bayard, L. Melie-García y E. Canales-Rodríguez, “Estimación de la
sobreajuste, regularizamos el modelo utilizando la penalización de lazo conectividad funcional cerebral con escasa autorregresión multivariada”,
Filos. Trans. Roy. Soc. B, vol. 360, págs. 969–981, 2005.
grupal. De esta manera, podemos lograr una interpolación basada en datos
[15] H. Attias y CE Schreiner, "Separación y deconvolución de fuentes ciegas: el algoritmo
entre dos extremos: un modelo de fuente que tiene correlaciones completas de análisis de componentes dinámicos",Computación neuronal., vol. 10, págs.
y uno que no permite la diafonía entre las fuentes extraídas. En el medio, 1373-1424, agosto de 1998.
[16] L. Parra y C. Spence, "Separación de fuentes ciegas convolutivas de fuentes no
nuestro método extrae un modelo de conectividad dispersa.
estacionarias",Traducción IEEE. Proceso de audio del habla., vol. 8, núm. 3, págs.
320–327, mayo de 2000.
El trabajo futuro estudiará el vínculo entre los métodos para compensar [17] J. Anemüller, TJ Sejnowski y S. Makeig, "Análisis complejo de componentes
independientes de datos electroencefalográficos en el dominio de la frecuencia"
la no estacionariedad en los datos, como el análisis subespacial estacionario
Red neuronal., vol. 16, págs. 1311-1323, noviembre de 2003.
(SSA, [38]) y nuestra novedosa evaluación de la conectividad. Además, [18] M. Mørup, KH Madsen y LK Hansen. (2009). “Modelado causal
nuestro objetivo es localizar los componentes extraídos de la conectividad latente de datos de neuroimagen” [en línea]. Disponible: http://
www2.imm.dtu.dk/pubdb/p.php?5804
utilizando modelos de fuentes distribuidas para mejorar la interpretabilidad
[19] JM Sánchez-Bornot, E. Martínez-Montes, A. Lage-Castellanos,
fisiológica (ver, por ejemplo, [22] y [39]). Un tercer campo de próxima M. Vega-Hernández y PA Valdés-Sosa, "Descubriendo la conectividad efectiva del
investigación es la extensión de nuestro modelo causal a datos cerebro disperso: un enfoque basado en vóxeles que utiliza regresión penalizada".
Estadística Sínica, vol. 18, núm. 4, págs. 1501-1518, 2008.
multidireccionales basándose en el trabajo de [40].
[20] M. Yuan e Y. Lin, “Selección y estimación de modelos en regresión con variables
agrupadas”.J. Roy. Estadística. Soc. B Metanfetamina., vol. 68, núm. 1, págs. 49–67,
ARECONOCIMIENTO 2006.
[21] SF Cotter, BD Rao, K. Engan y K. Kreutz-Delgado, “Soluciones dispersas para
Los autores desean agradecer a GG Herrero y M. Dyrholm problemas lineales inversos con múltiples vectores de medición”.
por hacer disponible el código fuente de sus algoritmos, así Traducción IEEE. Proceso de señal., vol. 53, núm. 7, págs. 2477–2488, julio de 2005.
[22] S. Haufe, V. Nikulin, A. Ziehe, K.-R. Müller y G. Nolte, "Combinación de escasez
como a N. Krämer por las discusiones. e invariancia rotacional en la reconstrucción de fuentes EEG/MEG".
NeuroImagen, vol. 42, núm. 2, págs. 26-738, 2008.
REFERENCIAS [23] M. van Gerven, C. Hesse, O. Jensen y T. Heskes, "Interpretación de datos de ensayos
únicos mediante la regularización grupal".NeuroImagen, vol. 46, págs. 665–676,
[1] G. Nolte, A. Ziehe, VV Nikulin, A. Schlögl, N. Krämer, T. Brismar y KR Müller, 2009.
"Estimación robusta de la dirección del flujo de información en sistemas [24] D. Wipf y S. Nagarajan, "Un marco bayesiano unificado para imágenes de fuente
físicos complejos".Física. Rev. Lett., vol. 100, págs. 234101-1– 234101-4, junio MEG/EEG",Neuroimagen, vol. 44, págs. 947–966, febrero de 2009.
de 2008. [25] R. Tomioka y KR Muller, "Un marco discriminativo regularizado para el análisis de
[2] C. Granger, "Investigación de las relaciones causales mediante modelos econométricos y EEG con aplicación a la interfaz cerebro-computadora".NeuroImagen, vol. 49, págs.
métodos transespectrales".econometria, vol. 37, págs. 424–438, 1969. 415–432, enero de 2010.
[3] MJ Kaminski y KJ Blinowska, "Un nuevo método de descripción del flujo [26] D. Marinazzo, M. Pellicoro y S. Stramaglia, “Método del núcleo para la cusalidad no
de información en las estructuras cerebrales".Biol. Cibern., vol. 65, lineal de Granger”,Física. Rev. Lett., vol. 100, págs. 144103-1–144103-4, 2008.
págs. 203-210, 1991.
[4] LA Baccalá y K. Sameshima, “Coherencia dirigida parcial: un nuevo concepto en la [27] J. Nocedal. (1980, julio). Actualización de matrices cuasi-newton con almacenamiento
determinación de la estructura neuronal”.Biol. Cibern., vol. 84, págs. 463–474, junio limitado.Matemáticas. Computadora., [En línea].35(151), págs. 773–782.
de 2001. Disponible: http://www.jstor.org/stable/2006193
[5] S. Haufe, G. Nolte, K.-R. Müller y N. Krämer, "Descubrimiento causal escaso en series [28] R. Neal y GE Hinton, “Una visión del algoritmo em que justifica variantes
temporales multivariadas",J. Mach. Aprender. Res. W&CP, vol. 6, págs. 97-106, incrementales, dispersas y de otro tipo”, enAprendizaje en modelos gráficos.
2010. Norwell, MA: Kluwer, 1998, págs. 355–368.
HAUFEet al.: MODELADO DE CONECTIVIDAD ESPARCA ENTRE FUENTES CEREBALES SUBYACENTES PARA EEG/MEG 1963
[29] R. Tomioka y M. Sugiyama, “Método lagrangiano aumentado dual para una Guido NolteNació en Dortmund, Alemania, en
reconstrucción dispersa eficiente”Proceso de señal IEEE. Letón., vol. 16, núm. 2, 1962. Recibió el Ph.D. Licenciado en Física por la
págs. 1067–1070, diciembre de 2009. Universidad de Oldenburg, Oldenburg, Alemania,
[30] G. Nolte y G. Dassios, "Expansión analítica del campo de derivación del EEG para en 1995.
conductores de volumen realistas",Física. Medicina. Biol., vol. 50, págs. 3807–3823, De 1995 a 2000 estuvo en el Hospital Universitario de la
2005. Universidad Libre de Berlín, Berlín, Alemania. De 2000 a 2002,
[31] CJ Holmes, R. Hoge, L. Collins, R. Woods, A. Toga y AC Evans, "Mejora de estuvo en el Departamento de Ciencias de la Computación de la
imágenes de RM mediante el registro para promediar señales".J. Universidad de Albuquerque, Albuquerque, Nuevo México. De
Computación. Asistir. Tomogr., vol. 22, núm. 2, págs. 324–333, 1998. 2002 a 2005, estuvo en la Sección de Control Motor Humano,
[32] L. Molgedey y HG Schuster, "Separación de una mezcla de señales independientes Instituto Nacional de Trastornos Neurológicos y Accidentes
utilizando correlaciones retardadas en el tiempo".Física. Rev. Lett., vol. 72, págs. Cerebrovasculares (NINDS/NIH),
3634–3637, junio de 1994. Bethesda/Maryland. Desde 2005, ha estado en el Instituto Fraunhofer FIRST,
[33] A. Belouchrani, K. Abed-Meraim, JF Cardoso y E. Moulines. (1997, agosto). Una técnica Berlín, donde ha sido líder del grupo "Análisis de datos inteligente" desde 2009.
de separación de fuentes ciega que utiliza estadísticas de segundo orden. Sus intereses de investigación actuales incluyen cálculo directo e inverso, análisis
Traducción IEEE. Proceso de señal., [En línea].45(2), págs. 434–444. Disponible: de series temporales no lineales, separación de fuentes, y conectividad cerebral en
http://dx.doi.org/10.1109/78.554307 el contexto del análisis de datos de electroencefalografía/magnetoencefalografía.
[34] A. Ziehe y K.-R. Müller, "TDSEP: un algoritmo eficiente para la separación ciega
utilizando estructura de tiempo", enProc. En t. Conf. Artif. Red neuronal.
(ICANN 1998), págs. 675–680.
[35] A. Ziehe, K.-R. Müller, G. Nolte, B.-M. Mackert y G. Curio, "Reducción de artefactos en
magnetoneurografía basada en correlaciones de segundo orden retardadas en el
tiempo".Traducción IEEE. Biomédica. Ing., vol. 47, núm. 1, págs. 75 a 87, enero de
2000.
[36] A. Ziehe, P. Laskov, G. Nolte y K.-R. Müller. (2004, diciembre). Un algoritmo rápido Klaus-Robert MüllerRecibió el Diploma en Física
para la diagonalización conjunta con transformaciones no ortogonales y su Matemática en 1989 y el Ph.D. Licenciado en
aplicación a la separación ciega de fuentes.J. Mach. Aprender. Res., [En línea]. 5, informática teórica en 1992, ambos de la
págs. 777–800. Disponible: http://portal.acm.org/citation.cfm?id=1016784 Universidad de Karlsruhe, Karlsruhe, Alemania.
[37] P. Tichavský y Z. Koldovský, "Emparejamiento óptimo de componentes de señal De 1992 a 1994, fue postdoctorado en Gesellschaft
separados por técnicas ciegas",Proceso de señal IEEE. Letón., vol. 11, núm. 2, págs. für Mathematik und Datenverarbeitung mbH (GMD)
119-122, febrero de 2004. FIRST, Berlín, Alemania. De 1994 a 1995, fue
[38] P. von Bünau, FC Meinecke, F. Király y K.-R. Müller, "Encontrar subespacios investigador de la Comunidad Europea en la
estacionarios en series de tiempo multivariadas",Física. Rev. Lett., vol. 103, Universidad de Tokio, Tokio, Japón. En 1995, fue el
págs. 214101-1–214101-4, 2009. fundador del grupo de Análisis Inteligente de Datos en
[39] S. Haufe, VV Nikulin, A. Ziehe, K.-R. Müller y G. Nolte, “Estimación de campos vectoriales GMD FIRST (más tarde Fraunhofer FIRST) y
utilizando expansiones de campos de base dispersa”, enAvances en los sistemas de lo dirigió hasta 2008. De 1999 a 2006 fue profesor de informática en la Universidad de
procesamiento de información neuronal,vol. 21, D. Koller, D. Schuurmans, Y. Bengio y L. Potsdam, Potsdam, Alemania. Desde 2006, ha sido profesor de informática en el Instituto
Bottou, Eds. Cambridge, MA: MIT Press, 2009, págs. 617– Tecnológico de Berlín (TU Berlin), Berlín, y también director del Bernstein Focus on
624. Neurotechnology Berlin, Goettingen, Alemania. Sus intereses de investigación actuales
[40] M. Mørup, LK Hansen, SM Arnfred, LH Lim y KH Madsen, "Descomposición incluyen el análisis de datos inteligentes, el aprendizaje automático, el procesamiento
multilineal invariante de cambios de datos de neuroimagen" NeuroImagen, estadístico de señales y la teoría del aprendizaje estadístico con focos de aplicación en
vol. 42, págs. 1439-1450, octubre de 2008. finanzas computacionales, química computacional, neurociencia computacional, análisis
de datos genómicos y el estudio de la interfaz entre el cerebro y la máquina: basado en
electroencefalografía no invasiva. interfaz cerebro-computadora.