Ciencias naturales – Blog de IA de Google

(Esta es la parte 7 de nuestra serie de publicaciones que cubren diferentes áreas temáticas de la investigación de Google. Puede encontrar otras publicaciones de la serie aquí).

Es un momento increíblemente emocionante para ser científico. Gracias a los increíbles avances en el aprendizaje automático (ML) y la computación cuántica, ahora contamos con nuevas y poderosas herramientas que nos permiten actuar según nuestra curiosidad, colaborar de nuevas maneras y acelerar radicalmente el progreso hacia descubrimientos científicos revolucionarios.

Desde que me uní a Google Research hace ocho años, he tenido el honor de ser parte de una comunidad de investigadores talentosos apasionados por el uso de la informática moderna para ampliar los límites de lo que es posible en la ciencia aplicada. Nuestros equipos exploran temas de las ciencias físicas y naturales. Entonces, para la publicación de blog de este año, quiero centrarme en los avances de alto impacto que hemos logrado recientemente en biología y física, desde ayudar a organizar la información genómica y de proteínas del mundo para beneficiar la vida de las personas hasta mejorar nuestra comprensión de la naturaleza. con las computadoras cuánticas del universo. Nos inspira el gran potencial de este trabajo.

Uso del aprendizaje automático para descubrir los misterios de la biología

Muchos de nuestros investigadores están fascinados por la extraordinaria complejidad de la biología, desde los misterios del cerebro hasta el potencial de las proteínas y el genoma que codifica el lenguaje de la vida. Trabajamos con científicos de otras organizaciones líderes en todo el mundo para resolver desafíos importantes en los campos de la conectómica, la predicción de la función de proteínas y la genómica, y para hacer que nuestras innovaciones sean accesibles y útiles para la comunidad científica en general.

Neurobiología

Una de las aplicaciones interesantes de nuestros métodos de aprendizaje automático desarrollados por Google ha sido estudiar cómo viaja la información a través de vías neuronales en el cerebro del pez cebra, lo que brinda información sobre cómo los peces se involucran en comportamientos sociales como el cortejo. En colaboración con investigadores del Instituto Max Planck para la Inteligencia Biológica, pudimos reconstruir computacionalmente parte del cerebro de un pez cebra con microscopía electrónica 3D, un avance emocionante en el uso de imágenes y canalizaciones computacionales para mapear circuitos neuronales en cerebros pequeños. , y otro paso adelante en nuestra inversión de larga data en conectómica.

Reconstrucción del circuito neuronal del cerebro de la larva del pez cebra, cortesía del Instituto Max Planck para la Inteligencia Biológica.

Los avances técnicos necesarios para este trabajo tendrán aplicaciones incluso más allá de la neurociencia. Por ejemplo, para abordar el desafío de trabajar con conjuntos de datos de conectómica tan grandes, desarrollamos y lanzamos TensorStore, una biblioteca de software de código abierto C++ y Python para almacenamiento y manipulación. norte:– datos volumétricos. Esperamos ver las formas en que se usa en otras industrias para almacenar grandes conjuntos de datos.

También usamos ML para arrojar luz sobre cómo el cerebro humano realiza hazañas notables, como el lenguaje, al comparar el procesamiento del lenguaje humano y los modelos autólogos de lenguaje profundo (DLM). Para este estudio, una colaboración con colegas de la Universidad de Princeton y la Facultad de Medicina Grossman de la Universidad de Nueva York, los participantes escucharon un podcast de 30 minutos mientras su actividad cerebral se registraba mediante electrocorticografía. Las grabaciones sugieren que el cerebro humano y los DLM comparten los principios computacionales del procesamiento del lenguaje, incluida la predicción continua de la siguiente palabra, la dependencia de incrustaciones contextuales y el cálculo de la sorpresa posterior al inicio en función de la superposición de palabras (podemos medir qué tan sorprendido está el cerebro humano). : la palabra y correlacionar esa señal de sorpresa con qué tan bien el DLM predice la palabra). Estos resultados brindan nuevos conocimientos sobre el procesamiento del lenguaje en el cerebro humano y sugieren que los DLM pueden usarse para revelar información valiosa sobre la base neuronal del lenguaje.

Bioquímica

ML también nos ha permitido hacer un progreso significativo en la comprensión de las secuencias biológicas. En 2022, utilizamos avances recientes en aprendizaje profundo para predecir con precisión la función de las proteínas a partir de secuencias de aminoácidos sin procesar. También trabajamos en estrecha colaboración con el Instituto Europeo de Bioinformática del Laboratorio Europeo de Biología Molecular (EMBL-EBI) para evaluar minuciosamente el rendimiento del modelo y agregar cientos de millones de anotaciones funcionales a las bases de datos públicas de proteínas UniProt, Pfam/InterPro y MGnify. La anotación humana de las bases de datos de proteínas puede ser un proceso laborioso y lento, y nuestros métodos de ML nos han permitido dar grandes pasos, como aumentar la cantidad de anotaciones de Pfam a un número mayor que todos los esfuerzos combinados en la última década. Millones de científicos de todo el mundo que acceden a estas bases de datos cada año ahora pueden utilizar nuestras anotaciones para sus investigaciones.

La inversión de Google Research en Pfam supera todos los esfuerzos de expansión de la base de datos durante la última década.

Aunque el primer borrador del genoma humano se publicó en 2003, estaba incompleto y tenía muchas lagunas debido a las limitaciones técnicas de las tecnologías de secuenciación. En 2022, celebramos los notables logros del consorcio Telómero-2-Telomero (T2T) para resolver estas regiones previamente inaccesibles, incluidos cinco brazos cromosómicos completos y casi 200 millones de pares de bases de nuevas secuencias de ADN de interés y relevancia para las cuestiones humanas. biología, evolución y enfermedad. Nuestro emisor de variantes de genómica de código abierto, DeepVariant, fue una de las herramientas utilizadas por el consorcio T2T para preparar la secuencia completa de 3055 millones de pares de bases del genoma humano. El consorcio T2T también está utilizando nuestro nuevo método de código abierto, DeepConsensus, que proporciona corrección de errores en el dispositivo para las herramientas de secuenciación de lectura larga de Pacific Biosciences, en su última investigación sobre recursos genómicos integrales que pueden representar la amplitud de la diversidad genética humana.

Uso de la computación cuántica para hacer nuevos descubrimientos en física

En lo que respecta a los descubrimientos científicos, la computación cuántica aún está en pañales, pero tiene un gran potencial. Estamos explorando formas de mejorar las capacidades de la computación cuántica para que pueda convertirse en una herramienta para el descubrimiento y descubrimiento científico. En colaboración con físicos de todo el mundo, también estamos comenzando a utilizar nuestras computadoras cuánticas existentes para crear nuevos y emocionantes experimentos en física.

Como ejemplo de tales experimentos, considere el problema donde un sensor mide algo y luego una computadora procesa los datos del sensor. Tradicionalmente, esto significa que los datos de los sensores se procesan como información clásica en nuestras computadoras. En cambio, una idea detrás de la computación cuántica es procesar directamente los datos cuánticos de los sensores. Pasar datos de sensores cuánticos directamente a algoritmos cuánticos sin mediciones clásicas puede brindar una gran ventaja. En un artículo científico reciente escrito en colaboración con investigadores de varias universidades, mostramos que la computación cuántica puede extraer información de un número exponencialmente menor de experimentos que la computación clásica, siempre que la computadora cuántica esté directamente conectada a sensores cuánticos y ejecute un algoritmo de aprendizaje. Este “aprendizaje automático cuántico” puede proporcionar una ventaja exponencial en el tamaño de la base de datos, incluso con las ruidosas computadoras cuánticas de escala intermedia de la actualidad. Debido a que los datos experimentales suelen ser el factor limitante en el descubrimiento científico, el aprendizaje automático cuántico tiene el potencial de desbloquear el enorme poder de las computadoras cuánticas para los científicos. Aún mejor, las ideas de este trabajo también son aplicables para aprender sobre los resultados de la computación cuántica, como los resultados de las simulaciones cuánticas, que de otro modo pueden ser difíciles.

Incluso sin ML cuántico, una poderosa aplicación de las computadoras cuánticas es el estudio experimental de sistemas cuánticos que de otro modo serían imposibles de observar o modelar. En 2022, el equipo de Quantum AI utilizó este enfoque para observar la primera evidencia experimental de múltiples fotones de microondas entrelazados utilizando qubits superconductores. Los fotones normalmente no interactúan entre sí y requieren un elemento adicional de no linealidad para que interactúen. Los resultados de nuestras simulaciones por computadora cuántica de estas interacciones nos sorprendieron. pensamos que la existencia de estos estados ligados dependía de condiciones frágiles, pero en cambio encontramos que son robustos incluso a las perturbaciones relativamente fuertes que aplicamos.

Probabilidad de ocupación versus paso de tiempo discreto de estados unidos de n fotones. Notamos que la mayoría de los fotones (colores más oscuros) permanecen unidos.

Dado el éxito inicial que hemos tenido en el uso de la computación cuántica para lograr avances en la física, esperamos que esta tecnología permita avances futuros que podrían tener un impacto tan significativo en la sociedad como la invención de los transistores o el GPS. : El futuro de la computación cuántica como herramienta científica es emocionante.

Gratitud

Me gustaría agradecer a todos los que trabajaron arduamente en los avances descritos en esta publicación, incluidos los equipos de Google Applied Sciences, Quantum AI, Genomics y Brain y sus colaboradores en Google Research y de manera externa. Finalmente, me gustaría agradecer a los muchos Googlers que respondieron a esta publicación, incluidos Lizzie Dorfman, Erica Brand, Elise Kleeman, Abe Asfau, Viren Jain, Lucy Colwell, Andrew Carroll, Ariel Goldstein y Charina Chow.

Arriba

Investigación de Google, 2022 y más allá

Esta fue la séptima publicación de blog de la serie Google Research, 2022 y más allá. Otras entradas en esta serie se enumeran en la siguiente tabla:

* Los artículos serán enlazados cuando sean publicados.

Source link