Entra el dragón

Cada edificio tiene su derecho a la fama, dice Janet Baker mientras me guía por un edificio de ladrillo de tres pisos que se encuentra en una colina con vista a Boston. Una vez que un molino, este edificio ha sido limpiado, renovado y convertido en oficinas. Hoy es la sede de Dragon Systems, la empresa que Janet y su esposo Jim Baker fundaron en 1982.



¿Qué es este? Pregunto.

Bell Labs ha muerto, viva Bell Labs

Esta historia fue parte de nuestro número de septiembre de 1998





  • Ver el resto del número
  • Suscribir

La cuerda que colgó a John Wilkes Booth se hizo aquí, dice con una sonrisa.

Una vez que conozco el pasado del edificio industrial, las señales están por todas partes. Los pisos del segundo y tercer piso están ligeramente inclinados, por lo que los trabajadores de hace un siglo podían enrollar los enormes carretes de cuerda. Hay puertas en el tercer piso que se abren a un espacio vacío, donde el bloque y los aparejos bajaron los carretes a los carruajes que esperaban debajo. Las poleas y los rodillos todavía cuelgan de los techos del edificio.

Pero los historiadores que miran hacia atrás desde el siglo XXI son menos propensos a recordar este antiguo molino por la soga que le retorció el cuello al asesino de Abraham Lincoln que por ser el lugar donde Dragon Systems resolvió un gran desafío de la informática: conseguir que una computadora personal reconociera la naturaleza natural. habla humana.
Desde el siglo pasado, los ingenieros han estado tratando de construir una máquina que escuchara la voz de su maestro; incluso Alexander Graham Bell lo intentó. Y aunque las computadoras capaces de reconocer palabras individuales habladas han existido durante décadas, en el otoño de 1995 los expertos todavía proclamaban que las máquinas de escritorio capaces de transcribir el habla continua, la forma rápida y a veces confusa en que la gente habla realmente, no estaría disponible hasta las al menos el año 2000… y posiblemente mucho más tarde.



Hoy en día, puede comprar NaturallySpeaking de Dragon Systems en tiendas de informática por $ 99.95 y ejecutarlo en una nueva PC que cueste menos de $ 2,000.

Entonces, ¿qué puede hacer esta tecnología? A principios de este año, me senté en una sala de conferencias en la sede de Dragon con un grupo de escritores de tecnología escépticos mientras Joel Gould, arquitecto principal de Dragon Systems, mostraba el programa que ayudó a crear. Gould caminó hacia el frente de la sala de conferencias, conectó su computadora portátil al proyector, se puso unos auriculares de teléfono livianos y comenzó a hablar.

Primero les voy a dar una demostración, y luego regresaré y les mostraré algunas de las cosas que vieron pasar rápidamente, dijo Gould. Unos segundos después, las mismas palabras aparecieron en la pantalla, escritas mágicamente por la propia computadora. Gould procedió con este estilo conversacional, con la máquina transcribiendo todo lo que dijo. Aunque hubo algún error ocasional, la precisión de la máquina fue notable. Con la esperanza de confundir al programa, un periodista preguntó si podía distinguir entre palabras que suenan igual pero están escritas de manera diferente. Gould sonrió y soltó una exclamación: Por favor, escriba una carta ahora mismo a la Sra. Wright. Dígale que dos es demasiado para comprar. El sistema reconoció perfectamente las palabras.

La dirección de Dragon predice con seguridad que dentro de cinco años, una computadora sin ese software de reconocimiento de voz parecerá tan primitiva como lo parecería hoy una computadora sin mouse. Las cartas y el correo electrónico se dictarán tan fácilmente como hablar por teléfono. Solo un paso más allá de eso, la traducción simultánea basada en PC podría derribar las barreras del idioma.



La llegada del reconocimiento de voz unos años antes de lo previsto se debe en gran parte a la perseverancia de Jim y Janet Baker, la pareja que fundó Dragon en 1982. Como investigadores, la pareja ayudó a inventar algunos de los algoritmos fundamentales utilizados hoy en día por todos los productos de reconocimiento de voz. . Como emprendedores, lucharon por comercializar la tecnología años antes de lo previsto. Ahora que el discurso está en el escritorio, está claro que nuestro futuro informático será moldeado en gran parte por Dragon Systems y el equipo de marido y mujer que lo dio a luz.

Janet maciver y jim baker se enamoraron cuando ambos eran estudiantes graduados en la Universidad Rockefeller de la ciudad de Nueva York. Era el otoño de 1970. Janet, una biofísica afable y extrovertida, estaba estudiando cómo procesa la información el sistema nervioso. Jim era un matemático intensamente tímido que buscaba un tema de tesis prometedor.

El tercer participante en su relación, el acertijo del reconocimiento de voz, entró en escena un día cuando Jim visitó el laboratorio de Janet y vio una pantalla de osciloscopio que mostraba una línea ondulada en movimiento. La señal, explicó Janet, era un registro continuo de eventos en curso producidos por un tipo de pequeño circuito analógico originalmente inventado por el profesor Jerome Lettvin en el MIT. Los eventos en su pantalla eran los sonidos del habla humana.

Me pareció un problema de reconocimiento de patrones muy interesante, dice Jim, recordando ese fatídico garabato. Dirigida a un altavoz, la señal produciría sonidos que una persona podría entender: lenguaje, en resumen. Pero mostrada en la pantalla, la información era impenetrable.

Y a medida que aprendí más al respecto, aprendí lo difícil que era realmente el problema, recuerda. El desafío clave no era simplemente construir una computadora que pudiera identificar palabras individuales; un equipo de Bell Labs lo había hecho en 1952. La computadora simple de Bell podía reconocer los dígitos del cero al nueve al comparar los sonidos hablados con un conjunto de patrones almacenados en memoria analógica. Y en la década de 1970, tales sistemas de reconocimiento discretos, que funcionaban siempre que el sistema se entrenara primero con la voz del hablante y que el hablante hiciera una pausa entre cada palabra, se habían acumulado en unos pocos cientos de palabras.

La verdadera tarea consistía en diseñar un algoritmo que pudiera dar sentido a las oraciones habladas de forma natural, donde los sonidos de las palabras individuales se camuflan por su contexto (ver diagrama de la p. 61). Eso [lo hizo] más interesante, dice Jim. Incluso entonces, el reconocimiento de voz continuo le pareció un problema de investigación ideal, que caracteriza como muy difícil pero no imposible.

Mientras Jim y Janet se preparaban para su boda en 1971, la Agencia de Proyectos de Investigación Avanzada de Defensa de los Estados Unidos (DARPA) puso en marcha un ambicioso proyecto de cinco años llamado Speech Understanding Research. La agencia consideró que cualquier tecnología que permitiera a los soldados comunicarse más rápido con las computadoras podría ser una ventaja estratégica significativa, especialmente en el campo de batalla. El objetivo del proyecto: un sistema que pudiera reconocer el habla humana continua a partir de un vocabulario de 1000 palabras con un 90 por ciento de precisión.

camiones de conducción autónoma otto

El momento de la iniciativa DARPA fue fortuito para los Baker, al igual que los antecedentes científicos de Jim. Como estudiante, había desarrollado una técnica matemática para analizar eventos aparentemente aleatorios, basada en métodos iniciados por el matemático ruso Andrey Markov (1856-1922). Jim fue la primera persona en darse cuenta de que esos modelos ocultos de Markov podrían usarse para desenredar el acertijo del discurso.

La mayoría de los recién casados ​​colaboran para resolver desafíos como qué patrón elegir para la porcelana de su boda. Los Baker no se saltaron estas tareas (eligieron un dragón), pero luego decidieron abordar juntos el problema del reconocimiento de voz. Sin embargo, se encontraron cada vez más aislados en Rockefeller, que no tenía expertos en comprensión del habla y carecía de la capacidad informática para probar las técnicas de Jim. Así que al año siguiente, hicieron las maletas y se trasladaron a la Universidad Carnegie Mellon, uno de los contratistas principales del proyecto DARPA y un hervidero de investigación en inteligencia artificial (IA).

En Carnegie Mellon, los Baker descubrieron que su enfoque del reconocimiento de voz estaba muy fuera de sintonía con la corriente principal. En ese momento, muchos investigadores de inteligencia artificial creían que una máquina podía reconocer oraciones habladas solo si primero podía comprender una gran cantidad de contexto, incluido quién era el hablante, lo que sabía y lo que el hablante podría estar tratando de decir, así como el reglas de la gramática inglesa. En otras palabras, para reconocer el habla, una máquina tendría que ser bastante inteligente.

Los Baker probaron un rumbo completamente diferente. Basándose en la experiencia de Jim con Markov Models, crearon un programa que operaba en un ámbito puramente estadístico. Primero, comenzaron a calcular la probabilidad de que dos o tres palabras aparecieran una tras otra en inglés. Luego crearon un diccionario fonético con los sonidos de esos grupos de palabras. El siguiente paso fue un algoritmo para descifrar una cadena de palabras habladas basado no solo en una buena coincidencia de sonido, sino también de acuerdo con la probabilidad de que alguien las pronuncie en ese orden. El sistema no tenía conocimiento de la gramática inglesa, no tenía una base de conocimientos, no tenía un sistema experto basado en reglas, no tenía inteligencia. Nada más que números.

Fue una idea muy herética y radical, dice Janet. Mucha gente dijo: ¡Eso no es habla ni lenguaje, eso es matemáticas! ¡Eso es otra cosa! '

Aunque el pensamiento de los Baker se encontró con un escepticismo generalizado, dice Victor Zue, director asociado del Laboratorio de Ciencias de la Computación del MIT y un colega pionero en la investigación del habla, el tiempo ha demostrado que [los Baker] tenían razón al perseguir este tipo de enfoque. De hecho, el sistema de los Baker, al que llamaron Dragón en honor a la criatura que adornaba su juego de porcelana, pronto comenzó a superar constantemente a los métodos de la competencia.

Cuando los Baker recibieron sus doctorados de Carnegie Mellon en 1975, su trabajo pionero pronto les consiguió puestos en el Centro de Investigación Thomas J. Watson de IBM, en las afueras de la ciudad de Nueva York. En ese momento, IBM era una de las únicas organizaciones que trabajaban con un amplio vocabulario y reconocimiento de voz continuo. No fuimos a [IBM] y dijimos: 'Tienes que contratarnos a los dos', recuerda Jim. Solo funcionaba de esa manera. Sin embargo, era un patrón que se repetiría. Hoy, con Jim como presidente / CEO y Janet como presidenta de Dragon Systems, los Baker se enorgullecen de tener currículums casi idénticos.

En IBM, los Baker diseñaron un programa que podía reconocer el habla continua a partir de un vocabulario de 1000 palabras. Sin embargo, estaba lejos del tiempo real. Al ejecutarse en una computadora IBM 370, el programa tardó aproximadamente una hora en decodificar una sola oración hablada. Pero lo que frustró a los Baker más que esperar tiempo en el mainframe fue la negativa de IBM a probar el reconocimiento de voz en condiciones del mundo real.

IBM es una excelente institución de investigación y disfrutamos trabajando allí, dice Janet. Pero estábamos muy ansiosos por sacar cosas al mercado y conseguir usuarios reales. Ciertamente, los usuarios reales no podían esperar una hora a que una computadora transcribiera una oración. Pero, señala, podría haber hecho cosas más simples utilizando muchos menos recursos [informáticos]. La dirección de IBM se sintió diferente y les dijo a los Baker que estaban siendo prematuros.
Fue el apogeo de las oportunidades perdidas en IBM (cuente las bases de datos relacionales y los microprocesadores RISC entre los inventos clave que la compañía no pudo comercializar) y en 1979 la frustración de los Baker se desbordó. La pareja saltó a Verbex, una subsidiaria de Exxon Enterprises con sede en Boston que había construido un sistema para recopilar datos por teléfono a través de dígitos hablados. Jim (como vicepresidente de desarrollo avanzado recién nombrado) y Janet (como vicepresidente de investigación) se propusieron hacer que el programa manejara un discurso continuo.

Pero menos de tres años después, Exxon abandonó el negocio del reconocimiento de voz y los Baker estaban buscando trabajo nuevamente. Esta vez, sus currículums parecidos indicaban problemas: no había trabajo para ninguno de los dos. El dúo se dio cuenta de que se enfrentaban a una elección: divorciarse del reconocimiento de voz cambiando de campo o emprenderse por su cuenta.

En 1982, sin capital de riesgo, sin plan de negocios, dos niños en edad preescolar y una gran hipoteca, los Bakers fundaron Dragon Systems. Dirigían la empresa desde su sala de estar y pensaban que sus ahorros podrían durar 18 meses, tal vez 24 si comían lo suficiente.

Un poco corpulentos pero no realmente fuera de forma, hoy los Baker se parecen más a académicos felizmente envejecidos que a emprendedores exitosos. Pero al caminar por el lujoso cuartel general de Dragon, es inmediatamente evidente que son ambos. Dragon Systems ha crecido casi un 50 por ciento cada año durante los últimos 16; ahora emplea a más de 260 personas. Su secreto, dice Janet, fue una década de autosuficiencia. En lugar de acumular deudas o vender una participación en la empresa a personas externas, los Baker insistieron en que los salarios y gastos debían pagarse con los ingresos. Como resultado, Dragon se centró en resolver problemas del mundo real con la tecnología actual y logró cumplir.

Los años posteriores a la eclosión de Dragon trajeron una larga lista de proyectos personalizados, contratos de investigación y productos únicos que se basan en un enfoque de reconocimiento discreto cada vez más sólido. Entre los hitos se encontraba el primer acuerdo de Dragon, en el que una pequeña empresa británica llamada Apricot Computers utilizó la tecnología de Dragon para comercializar la primera computadora personal que permitía a las personas abrir archivos o ejecutar programas mediante comandos simples. (Por desgracia, Apricot había madurado antes de su tiempo y pronto quebró.) En 1986, los trabajadores de Xerox armados con micrófonos y transmisores de radio utilizaron la tecnología Dragon para realizar una auditoría de todo el inventario de la empresa de 2,2 millones de piezas.

En 1990, Dragon introdujo DragonDictate 30K, el primer sistema de voz a texto de gran vocabulario para dictado de uso general. El programa permitió a un usuario controlar una PC usando solo la voz, e inmediatamente encontró el favor de los discapacitados, incluido el actor Christopher Reeve.

Pero la tecnología discreta de Dragon no pudo penetrar el mercado general. Aunque muchas personas podían ingresar texto con DragonDictate más rápido de lo que podían escribir, a nadie le gustaba verse obligado a hacer una pausa entre cada palabra hablada. Peor aún, los competidores estaban ganando terreno con su propia tecnología de reconocimiento de voz discreta. Todo el mundo sabía que lo que los usuarios realmente querían era el reconocimiento de voz continuo y que la primera empresa en el mercado estaría lista para dominar. Pero todo el mundo también sabía que faltaban al menos cinco años para un producto continuo, tal vez incluso una década.

Luego, en algún momento a fines de 1993, los Baker se dieron cuenta de que la sabiduría convencional estaba equivocada. Sabiendo la velocidad a la que la velocidad de la computadora y la memoria estaban mejorando, calcularon que las máquinas de escritorio de primera línea deberían tener el poder de realizar un reconocimiento continuo en unos pocos años. Así como la pareja una vez arriesgó sus carreras en un nuevo enfoque extravagante para el reconocimiento de voz, durante la primera mitad de 1994 los Bakers comenzaron a rehacer su empresa en un intento por aprovechar la oportunidad y llevar sus ideas al mercado.

Mientras Jim estableció un nuevo equipo de desarrollo para construir el primer reconocedor de voz continuo de Dragon, Janet negoció un trato con el fabricante de discos duros con sede en California Seagate Technologies para comprar el 25 por ciento de las acciones de Dragon. La empresa utilizó el efectivo para dotar de personal a sus fuerzas de ingeniería, marketing y ventas. En un año, Dragon contaba con el equipo de investigación del habla más grande del mundo: más de 50 científicos e ingenieros de software.

El nuevo producto continuo sería realmente dos programas en uno. El primero, el reconocedor, se ocuparía del trabajo real de convertir expresiones habladas en texto en inglés. El segundo programa era la interfaz, que conectaba el reconocedor tanto con el usuario como con el resto del sistema operativo de la computadora. Si la primera mitad fue ciencia pura (basada en el trabajo inicial de los Baker), la segunda fue la frustrante combinación de ingeniería y arte necesaria para convertir la ciencia en un producto comercializable.

El más complicado de estos problemas del mundo real fue hacer que el software funcionara bien en un entorno Windows. Windows es terrible, lamenta Dragon’s Gould, quien asumió la tarea crítica de diseñar la interfaz de usuario. Tiene errores, está mal documentado, es inconsistente y algunas partes son casi inutilizables. Sin embargo, eso es lo que ejecutan todos nuestros clientes.

En abril de 1997, el equipo de Dragon había superado los obstáculos clave y comenzó a insinuar a los analistas de la industria que se avecinaba algo importante. Éramos escépticos, recuerda Peter Ffoulkes de la firma de investigación de mercado Dataquest. Luego vio la demostración, que tenía un vocabulario de 230.000 palabras. Estábamos bastante impresionados con la capacidad. No esperábamos que estuviera aquí hoy, y realmente lo está, dice Ffoulkes.

Los Baker habían apostado su empresa y habían apostado bien. El nuevo producto de reconocimiento continuo, llamado Dragon NaturallySpeaking, fue un éxito instantáneo. La oficina de Janet Baker comenzó a llenarse de solicitudes de empresas que esperaban integrar la tecnología de Dragon con sus aplicaciones de software. Los artículos sobre NaturallySpeaking aparecieron en publicaciones de todo el mundo; Gould hizo una demostración del programa en CNN. Ese otoño, NaturallySpeaking arrasó en la feria comercial COMDEX de la industria, ganando todos los premios de productos importantes.

Sin embargo, el tiempo de Dragon a solas en el centro de atención fue breve. Cuando la compañía envió NaturallySpeaking por primera vez en junio de 1997, IBM respondió reduciendo drásticamente el precio de su reconocedor de voz discreto Voice Type, a 49,95 dólares. Y debido a que la noticia del inminente lanzamiento de NaturallySpeaking se había filtrado meses antes, IBM ya había lanzado un esfuerzo de choque para mover su propio programa continuo de reconocimiento de voz (desarrollado en el mismo laboratorio donde los Baker habían trabajado en la década de 1970) fuera de la puerta tan rápido como sea posible. El producto, IBM ViaVoice, llegó a los estantes de las tiendas en agosto con un precio de solo $ 99.

IBM realmente sopló las cosas, dice John Oberteuffer, presidente de Voice Information Associates, que estudia el mercado del reconocimiento de voz. He utilizado ambos y, en cuanto a precisión de reconocimiento pura, diría que son comparables, dice. Dragon se vio obligado a recortar y reducir su precio de la considerable tarifa inicial de $ 700 a $ 299, luego a $ 199. A finales de año, Dragon había vendido 29,463 copias de NaturallySpeaking, mientras que IBM había vendido 46,182 copias de ViaVoice, según PC Data. Pero en los ingresos generales por productos, Dragon había superado a Big Blue.

esconder

Tecnologías Reales

Categoría

Sin Categorizar

Tecnología

Biotecnología

Política De Tecnología

Cambio Climático

Humanos Y Tecnología

Silicon Valley

Informática

Revista Mit News

Inteligencia Artificial

Espacio

Ciudades Inteligentes

Blockchain

Artículo De Fondo

Perfil De Exalumnos

Conexión De Exalumnos

Característica De Noticias Del Mit

1865

Mi Vista

77 Mass Ave

Conoce Al Autor

Perfiles De Generosidad

Visto En El Campus

Cartas De Exalumnos

Función De Noticias Del Mit

Cadena De Bloques

Perfil De Ex Alumnos

77 Avenida De Masas

Política Tecnológica

Perfiles En Generosidad

Noticias

Revista De Noticias Del Mit

Elecciones 2020

Con Índice

Bajo La Cúpula

Manguera

Historias Infinitas

Proyecto De Tecnología Pandémica

Del Presidente

Artículo De Portada

Galería De Fotos

Recomendado