x

RSS Newsfeeds

See all RSS Newsfeeds

Global Regions

United States ( XML Feed )

Nov 14, 2017 4:20 PM ET

Porquê a verificação ortográfica é tão boa e a verificação gramatical é tão ruim

iCrowdNewswire - Nov 14, 2017
É muito mais fácil programar o software para verificar a ortografia do que verificar a gramática. BUBAONE / GETTY IMAGES

Há um velho ditado na robótica: qualquer coisa que um ser humano aprende a fazer depois dos 5 anos é fácil de ensinar uma máquina. Tudo o que aprendemos antes de 5, não é tão fácil. Essa lei não escrita da aprendizagem de máquinas pode explicar por que há computadores que podem vencer o melhor xadrez do mundo e os mestres Go, mas ainda temos que construir um robô que possa andar como um ser humano. (Não tente me dizer que ASIMO caminha como um humano.)

Isso também pode explicar por que o corrector ortográfico no seu computador funciona tão brilhantemente, mas o verificador de gramática não. Aprendemos a soletrar apenas quando temos idade suficiente para ir à escola, mas o básico do desenvolvimento da linguagem pode começar tão cedo quanto no útero .

Inferência e Contexto

A ortografia é uma tarefa finita com respostas discretas ou erradas. A gramática inglesa, por outro lado, contém um número quase infinito de possibilidades, e se algo é gramaticalmente correto ou incorreto pode depender em grande parte de pistas sutis como contexto e inferência.

É por isso que certas frases em inglês são uma dor no pescoço para verificadores de gramática automatizados. Les Perelman, um professor aposentado do MIT e ex-reitor associado de educação de graduação que dirigiu o programa de redação da universidade, me deu esse: “O carro estava estacionado pelo John”.

Minha versão reconhecidamente datada do Microsoft Word (Word para Mac 2011) está programada para reconhecer e corrigir a voz passiva, um não-não na maioria dos círculos de gramática. Quando escrevo esta frase para o Word, o programa sublinha-o cuidadosamente em verde e sugere: “John estacionou o carro”. Isso seria bom se John tivesse estacionado o carro, mas e se eu quisesse dizer que o carro estava fisicamente estacionado perto de John?

Erro simples, você pode dizer, mas olhe o que acontece quando mudo a frase para “O carro estava estacionado pela calçada”. A palavra sublinha e sugere: “A calçada estacionou o carro”. Isso é francamente pateta, mesmo para um computador.

“Tanta gramática inglesa envolve inferência e algo chamado de crenças contextuais mútuas”, diz Perelman. “Quando faço uma declaração, acredito que você sabe o que sei sobre isso. As máquinas não são tão inteligentes. Você pode treinar a máquina para uma situação específica, mas quando você fala sobre transações em linguagem humana, há realmente um grande número de inferências como esta acontecendo o tempo todo “.

Perelman tem uma carne com verificadores de gramática, que ele afirma simplesmente não funciona. Citando pesquisas anteriores , ele descobriu que os verificadores de gramática apenas identificaram corretamente os erros nos papéis do aluno em 50% do tempo. E, pior ainda, muitas vezes sinalizavam perfeitamente boa prosa como um erro, conhecido como um falso positivo.

Em um exercício, Perelman conectou 5.000 palavras de um ensaio famoso de Noam Chomsky no motor de pontuação e-rater da ETS, a empresa que produz (e grava) os exames GRE e TOEFL. O verificador de gramática encontrou 62 erros – incluindo 14 instâncias de uma frase começando com uma conjunção de coordenação (“e”, “mas”, “ou”) e nove comas desaparecidas – todas, exceto uma das quais Perelman classificada como “prosa perfeitamente gramatical”.

5 regras erradas da gramática que todos conhecem
 
 

Um pouco de história

O primeiro verificador ortográfico automatizado enviado com uma versão inicial do WordPerfect em 1983 e os primeiros controladores de gramática computadorizados logo seguiram em WordPerfect e Microsoft Word.

Mar Ginés Marín é um gerente de programa principal da Microsoft que vem brincando com o editor de gramática do Office nos últimos 17 anos. Ela diz que, nos primeiros dias, a melhor Palavra poderia fazer foi analisar uma frase em suas partes componentes do discurso e identificar erros de gramática simples, como acordo de substantivo-verbo. Então, os engenheiros descobriram como analisar uma frase em pequenos “pedaços” de duas ou três palavras para segmentar coisas como “um / um” acordo. Isso é chamado processamento de linguagem natural ou PNL.

O próximo passo foi introduzir o aprendizado da máquina. Susan Hendrich é gerente de programa de grupo da Microsoft responsável pelas equipes de processamento de linguagem natural que trabalham no Office. Com a aprendizagem de máquinas, os engenheiros da Microsoft podem ir além da programação de todas e cada uma das regras de gramática no software. Em vez disso, eles treinam a máquina em um enorme conjunto de dados de uso correto em inglês e permitem que a máquina aprenda com os padrões que ela descobre.

Hendrich diz que os algoritmos desenvolvidos pela Microsoft através da aprendizagem em máquina são o que impede as decisões da Word sobre se uma frase precisa ou não um ponto de interrogação, ou quais tipos de cláusulas requerem uma vírgula (coisas bastante complicadas, mesmo para nós escritores humanos).

Mas isso funcionou? Daniel Kies, um professor de inglês no College of Du Page, em Glen Ellyn, Illinois, realizou um teste direto de vários verificadores de gramática que vão do WordPerfect 8, lançado no final da década de 1990, até o Word 2007. Quando marcado contra 20 frases contendo os erros de escrita mais comuns, todas as verificadoras de gramática realizaram-se bastante miseravelmente. Nenhuma versão do Word após 2000 detectou os erros (estranhamente, o Word 97 melhorou) e o WordPerfect identificou apenas 40% dos erros.

Embora esses números não representem as últimas versões de verificadores de gramática, eles apontam para um dos maiores desafios na criação de um mecanismo de gramática poderoso e preciso incorporado em um espaço de software.

“Nós podemos fazer esses grandes modelos bonitos que possuem uma precisão de alta precisão, mas eles são muito grandes para enviar na caixa com o produto”, diz Hendrich na Microsoft. “Então, temos que diminuir o nosso modelo e, à medida que reduzimos nosso modelo, perdemos precisão precisa. Então, temos esse ponto de equilíbrio com o qual estamos dispostos a enviar”.

Ginés Marín defende a precisão do Word, mas admite que as restrições de espaço afetaram o nível de “cobertura” que o verificador gramatical da Microsoft forneceu. Quando o modelo foi diluído para se encaixar no software, ele também precisava ser discado de volta na largura para que não sinalizasse muitos bons textos como erros.

The Golden Squiggle

O que mudou desde os dias do Word 2007 é o aumento de aplicativos de software baseados na Web. Agora, os engenheiros não precisam colocar um grande mecanismo de gramática em um pacote pequeno o bastante para viver no disco rígido do usuário. Os algoritmos de gramática podem viver na nuvem e ser acessados ​​pela internet em tempo real.

Hendrich diz que as versões baseadas na web do Office já contam com motores de gramática robustos hospedados na nuvem, e seu time está atualmente no processo de mover também todas as antigas críticas e modelos de gramática para a nuvem. O desafio em andamento, diz Hendrich, é decidir qual a funcionalidade para manter “na caixa” e quanto entregar “através do serviço”, como Hendrich chama o modelo baseado em nuvem da Microsoft, como um software como um serviço.

A questão é custo. Toda vez que o Word chama a nuvem para conselhos de gramática, custa algumas frações de um centavo.

“Se você está escrevendo um documento de 10 páginas, você liga para o serviço em cada pressionamento de tecla?” Hendrich pergunta. “Quando você começa a olhar para os modelos de custo, pode ser bastante grande”.

A última versão do editor de gramática da Microsoft é muito mais robusta do que seus antecessores. Erros com sugestões de correção múltiplas e explicações para as regras de gramática por trás delas. Existe uma função interna de leitura em voz alta que é particularmente útil para pessoas com dislexia e para falantes não-nativos. E há um novo tipo de sugestão que Hendrich chama o “squiggle dourado” que aborda o estilo de escrita mais do que a gramática básica.

Se você escreve que o comitê está à procura de um novo “presidente”, por exemplo, o cadáver dourado sugerirá que você use um termo neutro em termos de gênero como “presidente”. Se você está escrevendo um memorando para o seu chefe, que exige um certo grau de formalidade, o peixeiro dourado irá marcar palavras que parecem muito casuais como “confortáveis”.

Uma questão que é importante perguntar é se os verificadores de gramática realmente precisam ser perfeitos. Se a Palavra sugere que a frase deve ler “A calçada estacionou o carro”, você pode simplesmente ignorá-la. Não é grande coisa, certo?

Para falantes nativos de inglês, um verificador gramatical não tão perfeito é uma leve irritação. Mesmo se você não é um analista de gramática, você pode ouvi-lo quando algo parece errado. O problema real, diz o antigo professor de redação do MIT, Perelman, ocorre quando os alunos de língua inglesa confiam nessas ferramentas para corrigir sua escrita.

“Realmente depende de quem é o usuário”, diz Perelman. “Se o usuário for falante nativo, os falsos positivos não são tão perigosos como são para um falante não-nativo”.

Se a Palavra diz a um aluno de língua inglesa que “a calçada estacionou o carro”, não só sua escrita não faz nenhum sentido, mas eles estarão aprendendo gramática ruim. Agora que o inglês se tornou a lingua franca da ciência e da tecnologia, Perelman diz, as empresas de todo o mundo estão desesperadas por um verificador de gramática de inglês verdadeiramente confiável e preciso. É por isso que você vê o surgimento de ferramentas de gramática baseadas em web de terceiros, como a Grammarly e a Ginger, todas tentando atender a essa demanda internacional.

A boa notícia é que a versão mais recente do Word (2016) passa o teste “freio”. Grammarly, no entanto, sinalizou como uma voz passiva.

 

 

Contact Information:

DAVE ROOS

View Related News >