МАШИННЫЙ
ПЕРЕВОД, выполняемое на компьютере действие по преобразованию текста на одном
естественном языке в эквивалентный по содержанию текст на другом языке, а также
результат такого действия. Современный машинный, или автоматический перевод
осуществляется с помощью человека: пред-редактора, который тем или иным образом
предварительно обрабатывает подлежащий переводу текст, интер-редактора, который
участвует в процессе перевода, или пост-редактора, который исправляет ошибки и
недочеты в переведенном машиной тексте.
Для
осуществления машинного перевода в компьютер вводится специальная программа,
реализующая алгоритм перевода, под которым понимается последовательность
однозначно и строго определенных действий над текстом для нахождения переводных
соответствий в данной паре языков L1 – L2 при заданном направлении перевода (с
одного конкретного языка на другой). Система машинного перевода включает в себя
двуязычные словари, снабженные необходимой грамматической информацией
(морфологической, синтаксической и семантической) для обеспечения передачи
эквивалентных, вариантных и трансформационных переводных соответствий, а также
алгоритмические средства грамматического анализа, реализующие какую-либо из
принятых для автоматической переработки текста формальных грамматик. Имеются
также отдельные системы машинного перевода, рассчитанные на перевод в рамках
трех и более языков, но они в настоящее время являются экспериментальными.
Наиболее
распространенной является следующая последовательность формальных операций,
обеспечивающих анализ и синтез в системе машинного перевода:
1. На
первом этапе осуществляется ввод текста и поиск входных словоформ (слов в
конкретной грамматической форме, например дательного падежа множественного
числа) во входном словаре (словаре языка, с которого производится перевод) с
сопутствующим морфологическим анализом, в ходе которого устанавливается
принадлежность данной словоформы к определенной лексеме (слову как единице
словаря). В процессе анализа из формы слова могут быть получены также сведения,
относящиеся к другим уровням организации языковой системы.
2.
Следующий этап включает в себя перевод идиоматических словосочетаний,
фразеологических единств или штампов данной предметной области (например, при
англо-русском переводе обороты типа in case of, in accordance with получают
единый цифровой эквивалент и исключаются из дальнейшего грамматического
анализа); определение основных грамматических (морфологических, синтаксических,
семантических и лексических) характеристик элементов входного текста (например,
числа существительных, времени глагола, синтаксических функций словоформ в
данном тексте и пр.), производимое в рамках входного языка; разрешение
омографии (конверсионной омонимии словоформ – скажем, англ. round может быть
существительным, прилагательным, наречием, глаголом или же предлогом);
лексический анализ и перевод лексем. Обычно на этом этапе однозначные слова
отделяются от многозначных (имеющих более одного переводного эквивалента в
выходном языке), после чего однозначные слова переводятся по спискам
эквивалентов, а для перевода многозначных слов используются так называемые
контекстологические словари, словарные статьи которых представляют собой
алгоритмы запроса к контексту на наличие/отсутствие контекстных определителей
значения.
3.
Окончательный грамматический анализ, в ходе которого доопределяется необходимая
грамматическая информация с учетом данных выходного языка (например, при
русских существительных типа сани, ножницы глагол должен стоять в форме
множественного числа, при том что в оригинале может быть и единственное число).
4.
Синтез выходных словоформ и предложения в целом на выходном языке.
В
зависимости от особенностей морфологии, синтаксиса и семантики конкретной
языковой пары, а также направления перевода общий алгоритм перевода может
включать и другие этапы, а также модификации названных этапов или порядка их
следования, но вариации такого рода в современных системах, как правило,
незначительны. Анализ и синтез могут производиться как пофразно, так и для
всего текста, введенного в память компьютера; в последнем случае алгоритм
перевода предусматривает определение так называемых анафорических связей
(такова, например, связь местоимения с замещаемым им существительным – скажем,
местоимения им со словом местоимения в самом этом пояснении в скобках).
Действующие
системы машинного перевода ориентированы на конкретные пары языков (например,
французский и русский или японский и английский) и используют, как правило,
переводные соответствия либо на поверхностном уровне, либо на некотором
промежуточном уровне между входным и выходным языком. Качество машинного
перевода зависит от объема словаря, объема информации, приписываемой
лексическим единицам, от тщательности составления и проверки работы алгоритмов
анализа и синтеза, от эффективности программного обеспечения. Современные
аппаратные и программные средства допускают использование словарей большого
объема, содержащих подробную грамматическую информацию. Информация может быть
представлена как в декларативной (описательной), так и в процедурной
(учитывающей потребности алгоритма) форме.
Современный
машинный перевод следует отличать от использования компьютеров в помощь
человеку-переводчику. В последнем случае имеется в виду автоматический словарь,
помогающий человеку быстрее подбирать нужный переводной эквивалент. Хотя и в
том, и в другом случае компьютер работает вместе с человеком (переводчиком или
редактором), в содержание термина «машинный перевод» входит представление о
том, что главную, бóльшую часть работы по переводу и отысканию переводных
эквивалентов и переводных соответствий машина берет на себя, оставляя человеку
лишь контроль и исправление ошибок, в то время как компьютерный словарь в
помощь человеку – это чисто вспомогательное средство для быстрого нахождения
переводных соответствий; при этом, однако, в такого рода словарях в
ограниченной степени могут быть реализованы и некоторые функции, присущие
системам машинного перевода.
В
практике переводческой деятельности и в информационной технологии различаются
два основных подхода к машинному переводу. С одной стороны, результаты
машинного перевода могут быть использованы для поверхностного ознакомления с
содержанием документа на незнакомом языке. В этом случае он может
использоваться как сигнальная информация и не требует тщательного
редактирования. Другой подход предполагает использование машинного перевода
вместо обычного «человеческого». Это предполагает тщательное редактирование и
настройку системы перевода на определенную предметную область. Здесь играют
роль полнота словаря, ориентированность его на содержание и набор языковых
средств переводимых текстов, эффективность способов разрешения лексической
многозначности, результативность работы алгоритмов извлечения грамматической
информации, нахождения переводных соответствий и алгоритмов синтеза. На
практике перевод такого типа становится экономически выгодным, если объем
переводимых текстов достаточно велик (не менее нескольких десятков тысяч страниц
в год), если тексты достаточно однородны, словари системы полны и допускают
дальнейшее расширение, а программное обеспечение удобно для
пост-редактирования. Такого рода системы машинного перевода используются в
организациях, потребности которых в оперативных и качественных переводах
достаточно велики.
Теоретической
основой начального (конец 1940-х – начало 1950-х годов) периода работ по
машинному переводу был взгляд на язык как кодовую систему. Пионерами МП были
математики и инженеры. Описания их первых опытов, связанных с использованием
только что появившихся ЭВМ для решения криптографических задач, были
опубликованы в США в конце 1940-х годов. Датой рождения машинного перевода как
исследовательской области обычно считают март 1947; именно тогда специалист по
криптографии Уоррен Уивер в своем письме Норберту Винеру впервые поставил
задачу машинного перевода, сравнив ее с задачей дешифровки.
Тот же
Уивер после ряда дискуссий составил в 1949 меморандум, в котором теоретически
обосновал принципиальную возможность создания систем машинного перевода. Вскоре
началось финансирование исследований; в 1952 состоялась первая конференция по
машинному переводу, организованная логиком и математиком Й.Бар-Хиллелом.
Помимо
очевидных практических нужд важную роль в становлении машинного перевода
сыграло то обстоятельство, что предложенный в 1950 английским математиком
А.Тьюрингом знаменитый тест на разумность («тест Тьюринга») фактически заменил
вопрос о том, может ли машина мыслить, на вопрос о том, может ли машина общаться
с человеком на естественном языке таким образом, что тот не в состоянии будет
отличить ее от собеседника-человека. Тем самым вопросы компьютерной обработки
естественноязыковых сообщений на десятилетия оказались в центре исследований по
кибернетике (а впоследствии по искусственному интеллекту), а между
математиками, программистами и инженерами-компьютерщиками, с одной стороны, и
лингвистами – с другой установилось продуктивное сотрудничество.
В 1954
общественности были предъявлены первые результаты: фирма IBM совместно с
Джорджтаунским университетом (США) успешно осуществили первый эксперимент
(вошедший в историю под названием Джорджтаунского), в ходе которого система,
использовавшая словарь из 250 слов и грамматику из 6 синтаксических правил,
осуществила перевод 49 заранее отобранных предложений. В том же 1954 первый
эксперимент по машинному переводу был осуществлен в СССР И.К.Бельской
(лингвистическая часть) и Д.Ю.Пановым (программная часть) в Институте точной
механики и вычислительной техники Академии наук СССР, а первый промышленно
пригодный алгоритм машинного перевода и система машинного перевода с
английского языка на русский на универсальной вычислительной машине были
разработаны коллективом под руководством Ю.А.Моторина. После этого работы
начались во многих информационных институтах, научных и учебных организациях
страны.
Идея
машинного перевода стимулировала развитие исследований в теоретическом и
прикладном языкознании во всем мире. Появились теории формальных грамматик,
большое внимание стало уделяться моделированию языка и отдельных его аспектов,
языковой и мыслительной деятельности, вопросам языковой формы и количественных
распределений лингвистических явлений. Возникли новые направления
лингвистической науки – вычислительная, математическая, инженерная,
статистическая, алгоритмическая лингвистика и ряд других отраслей прикладного и
теоретического языкознания. В течение 1950-х годов в учебных центрах многих
стран мира были открыты отделения прикладной лингвистики и машинного перевода.
Так, в СССР такие отделения были созданы в Москве (МГУ им. М.В.Ломоносова,
МГПИИЯ им. М.Тореза – ныне МГЛУ), в Минском МГПИИЯ, в Ереване, Махачкале,
Ленинградском университете, в университетах Киева, Харькова, Новосибирска, ряда
других городов. Исследования и разработки по машинному переводу развернулись
также во Франции, Англии, США, Канаде, Италии, Германии, Японии, Нидерландах,
Болгарии, Венгрии и других странах, а также в международных организациях, где
велик объем переводов с различных языков. В настоящее время исследования по МП
ведутся и в таких странах, как Малайзия, Саудовская Аравия, Иран и др.
"МАШИННЫЙ ПЕРЕВОД"
Список
используемой литературы:
1. Бельская И.К. Язык человека
и машина. М., 1969
2. Марчук Ю.Н. Проблемы
машинного перевода. М., 1983
3. Нелюбин Л.Л. Компьютерная
лингвистика и машинный перевод. М., 1991
МАШИННЫЙ
ПЕРЕВОД, выполняемое на компьютере действие по преобразованию текста на одном
естественном языке в эквивалентный по содержанию текст на другом языке, а также
результат такого действия. Современный машинный, или автоматический перевод
осуществляется с помощью человека: пред-редактора, который тем или иным образом
предварительно обрабатывает подлежащий переводу текст, интер-редактора, который
участвует в процессе перевода, или пост-редактора, который исправляет ошибки и
недочеты в переведенном машиной тексте.
Для
осуществления машинного перевода в компьютер вводится специальная программа,
реализующая алгоритм перевода, под которым понимается последовательность
однозначно и строго определенных действий над текстом для нахождения переводных
соответствий в данной паре языков L1 – L2 при заданном направлении перевода (с
одного конкретного языка на другой). Система машинного перевода включает в себя
двуязычные словари, снабженные необходимой грамматической информацией
(морфологической, синтаксической и семантической) для обеспечения передачи
эквивалентных, вариантных и трансформационных переводных соответствий, а также
алгоритмические средства грамматического анализа, реализующие какую-либо из
принятых для автоматической переработки текста формальных грамматик. Имеются
также отдельные системы машинного перевода, рассчитанные на перевод в рамках
трех и более языков, но они в настоящее время являются экспериментальными.
Наиболее
распространенной является следующая последовательность формальных операций,
обеспечивающих анализ и синтез в системе машинного перевода:
1. На
первом этапе осуществляется ввод текста и поиск входных словоформ (слов в
конкретной грамматической форме, например дательного падежа множественного
числа) во входном словаре (словаре языка, с которого производится перевод) с
сопутствующим морфологическим анализом, в ходе которого устанавливается
принадлежность данной словоформы к определенной лексеме (слову как единице
словаря). В процессе анализа из формы слова могут быть получены также сведения,
относящиеся к другим уровням организации языковой системы.
2.
Следующий этап включает в себя перевод идиоматических словосочетаний,
фразеологических единств или штампов данной предметной области (например, при
англо-русском переводе обороты типа in case of, in accordance with получают
единый цифровой эквивалент и исключаются из дальнейшего грамматического
анализа); определение основных грамматических (морфологических, синтаксических,
семантических и лексических) характеристик элементов входного текста (например,
числа существительных, времени глагола, синтаксических функций словоформ в
данном тексте и пр.), производимое в рамках входного языка; разрешение
омографии (конверсионной омонимии словоформ – скажем, англ. round может быть
существительным, прилагательным, наречием, глаголом или же предлогом);
лексический анализ и перевод лексем. Обычно на этом этапе однозначные слова
отделяются от многозначных (имеющих более одного переводного эквивалента в
выходном языке), после чего однозначные слова переводятся по спискам
эквивалентов, а для перевода многозначных слов используются так называемые
контекстологические словари, словарные статьи которых представляют собой
алгоритмы запроса к контексту на наличие/отсутствие контекстных определителей
значения.
3.
Окончательный грамматический анализ, в ходе которого доопределяется необходимая
грамматическая информация с учетом данных выходного языка (например, при
русских существительных типа сани, ножницы глагол должен стоять в форме
множественного числа, при том что в оригинале может быть и единственное число).
4.
Синтез выходных словоформ и предложения в целом на выходном языке.
В
зависимости от особенностей морфологии, синтаксиса и семантики конкретной
языковой пары, а также направления перевода общий алгоритм перевода может
включать и другие этапы, а также модификации названных этапов или порядка их
следования, но вариации такого рода в современных системах, как правило,
незначительны. Анализ и синтез могут производиться как пофразно, так и для
всего текста, введенного в память компьютера; в последнем случае алгоритм
перевода предусматривает определение так называемых анафорических связей
(такова, например, связь местоимения с замещаемым им существительным – скажем,
местоимения им со словом местоимения в самом этом пояснении в скобках).
Действующие
системы машинного перевода ориентированы на конкретные пары языков (например,
французский и русский или японский и английский) и используют, как правило,
переводные соответствия либо на поверхностном уровне, либо на некотором
промежуточном уровне между входным и выходным языком. Качество машинного
перевода зависит от объема словаря, объема информации, приписываемой
лексическим единицам, от тщательности составления и проверки работы алгоритмов
анализа и синтеза, от эффективности программного обеспечения. Современные
аппаратные и программные средства допускают использование словарей большого
объема, содержащих подробную грамматическую информацию. Информация может быть
представлена как в декларативной (описательной), так и в процедурной
(учитывающей потребности алгоритма) форме.
Современный
машинный перевод следует отличать от использования компьютеров в помощь
человеку-переводчику. В последнем случае имеется в виду автоматический словарь,
помогающий человеку быстрее подбирать нужный переводной эквивалент. Хотя и в
том, и в другом случае компьютер работает вместе с человеком (переводчиком или
редактором), в содержание термина «машинный перевод» входит представление о
том, что главную, бóльшую часть работы по переводу и отысканию переводных
эквивалентов и переводных соответствий машина берет на себя, оставляя человеку
лишь контроль и исправление ошибок, в то время как компьютерный словарь в
помощь человеку – это чисто вспомогательное средство для быстрого нахождения
переводных соответствий; при этом, однако, в такого рода словарях в
ограниченной степени могут быть реализованы и некоторые функции, присущие
системам машинного перевода.
В
практике переводческой деятельности и в информационной технологии различаются
два основных подхода к машинному переводу. С одной стороны, результаты
машинного перевода могут быть использованы для поверхностного ознакомления с
содержанием документа на незнакомом языке. В этом случае он может
использоваться как сигнальная информация и не требует тщательного
редактирования. Другой подход предполагает использование машинного перевода
вместо обычного «человеческого». Это предполагает тщательное редактирование и
настройку системы перевода на определенную предметную область. Здесь играют
роль полнота словаря, ориентированность его на содержание и набор языковых
средств переводимых текстов, эффективность способов разрешения лексической
многозначности, результативность работы алгоритмов извлечения грамматической
информации, нахождения переводных соответствий и алгоритмов синтеза. На
практике перевод такого типа становится экономически выгодным, если объем
переводимых текстов достаточно велик (не менее нескольких десятков тысяч страниц
в год), если тексты достаточно однородны, словари системы полны и допускают
дальнейшее расширение, а программное обеспечение удобно для
пост-редактирования. Такого рода системы машинного перевода используются в
организациях, потребности которых в оперативных и качественных переводах
достаточно велики.
Теоретической
основой начального (конец 1940-х – начало 1950-х годов) периода работ по
машинному переводу был взгляд на язык как кодовую систему. Пионерами МП были
математики и инженеры. Описания их первых опытов, связанных с использованием
только что появившихся ЭВМ для решения криптографических задач, были
опубликованы в США в конце 1940-х годов. Датой рождения машинного перевода как
исследовательской области обычно считают март 1947; именно тогда специалист по
криптографии Уоррен Уивер в своем письме Норберту Винеру впервые поставил
задачу машинного перевода, сравнив ее с задачей дешифровки.
Тот же
Уивер после ряда дискуссий составил в 1949 меморандум, в котором теоретически
обосновал принципиальную возможность создания систем машинного перевода. Вскоре
началось финансирование исследований; в 1952 состоялась первая конференция по
машинному переводу, организованная логиком и математиком Й.Бар-Хиллелом.
Помимо
очевидных практических нужд важную роль в становлении машинного перевода
сыграло то обстоятельство, что предложенный в 1950 английским математиком
А.Тьюрингом знаменитый тест на разумность («тест Тьюринга») фактически заменил
вопрос о том, может ли машина мыслить, на вопрос о том, может ли машина общаться
с человеком на естественном языке таким образом, что тот не в состоянии будет
отличить ее от собеседника-человека. Тем самым вопросы компьютерной обработки
естественноязыковых сообщений на десятилетия оказались в центре исследований по
кибернетике (а впоследствии по искусственному интеллекту), а между
математиками, программистами и инженерами-компьютерщиками, с одной стороны, и
лингвистами – с другой установилось продуктивное сотрудничество.
В 1954
общественности были предъявлены первые результаты: фирма IBM совместно с
Джорджтаунским университетом (США) успешно осуществили первый эксперимент
(вошедший в историю под названием Джорджтаунского), в ходе которого система,
использовавшая словарь из 250 слов и грамматику из 6 синтаксических правил,
осуществила перевод 49 заранее отобранных предложений. В том же 1954 первый
эксперимент по машинному переводу был осуществлен в СССР И.К.Бельской
(лингвистическая часть) и Д.Ю.Пановым (программная часть) в Институте точной
механики и вычислительной техники Академии наук СССР, а первый промышленно
пригодный алгоритм машинного перевода и система машинного перевода с
английского языка на русский на универсальной вычислительной машине были
разработаны коллективом под руководством Ю.А.Моторина. После этого работы
начались во многих информационных институтах, научных и учебных организациях
страны.
Идея
машинного перевода стимулировала развитие исследований в теоретическом и
прикладном языкознании во всем мире. Появились теории формальных грамматик,
большое внимание стало уделяться моделированию языка и отдельных его аспектов,
языковой и мыслительной деятельности, вопросам языковой формы и количественных
распределений лингвистических явлений. Возникли новые направления
лингвистической науки – вычислительная, математическая, инженерная,
статистическая, алгоритмическая лингвистика и ряд других отраслей прикладного и
теоретического языкознания. В течение 1950-х годов в учебных центрах многих
стран мира были открыты отделения прикладной лингвистики и машинного перевода.
Так, в СССР такие отделения были созданы в Москве (МГУ им. М.В.Ломоносова,
МГПИИЯ им. М.Тореза – ныне МГЛУ), в Минском МГПИИЯ, в Ереване, Махачкале,
Ленинградском университете, в университетах Киева, Харькова, Новосибирска, ряда
других городов. Исследования и разработки по машинному переводу развернулись
также во Франции, Англии, США, Канаде, Италии, Германии, Японии, Нидерландах,
Болгарии, Венгрии и других странах, а также в международных организациях, где
велик объем переводов с различных языков. В настоящее время исследования по МП
ведутся и в таких странах, как Малайзия, Саудовская Аравия, Иран и др.
Исследования
по машинному переводу за свою пятидесятилетнюю историю переживали как подъемы,
так и спады. В начале 1960-х годов завершился первоначальный эйфорический этап
в развитии МП, чему в сильнейшей степени способствовала публикация так
называемой «Черной книги машинного перевода» – доклада Специального комитета по
прикладной лингвистике (ALPAC) Национальной академии наук США, в котором была
констатирована невозможность создания в обозримом будущем универсальных систем
высококачественного машинного перевода. Следствием этой публикации было
сокращение финансирования и общее снижение интереса к проблематике МП, однако
полного сворачивания исследований, в особенности теоретических, не произошло.
Новый
подъем исследований в области МП начался в 1970-х годах и был связан с
серьезными достижениями в области компьютерного моделирования интеллектуальной
деятельности. Соответствующая область исследований, возникшая несколько позже
МП (датой ее рождения обычно считают 1956), получила название искусственного
интеллекта, а создание систем машинного перевода было осмыслено в 1970-е годы
как одна из частных задач этого нового исследовательского направления.
Можно
выделить два основных стимула к развитию работ по машинному переводу в
современном мире. Первый – собственно научный; он определяется комплексностью и
сложностью компьютерного моделирования перевода. Как вид языковой деятельности
перевод затрагивает все уровни языка – от распознавания графем (и фонем при
переводе устной речи) до передачи смысла высказывания и текста. Кроме того, для
перевода характерна обратная связь и возможность сразу проверить теоретическую
гипотезу об устройстве тех или иных языковых уровней и эффективности
предлагаемых алгоритмов. Эта характеристическая черта перевода вообще и
машинного перевода в частности привлекает внимание теоретиков, в результате
чего продолжают возникать все новые теории автоматизации перевода и формализации
языковых данных и процессов.
Второй
стимул – социальный, и обусловлен он возрастающей ролью самой практики перевода
в современном мире как необходимого условия обеспечения межъязыковой
коммуникации, объем которой возрастает с каждым годом. Другие способы
преодоления языковых барьеров на пути коммуникации – разработка или принятие
единого языка, а также изучение иностранных языков – не могут сравниться с
переводом по эффективности. С этой точки зрения можно утверждать, что
альтернативы переводу нет, так что разработка качественных и
высокопроизводительных систем машинного перевода способствует разрешению
важнейших социально-коммуникативных задач.
В ходе
развития идей и создания промышленных систем машинного перевода были
разработаны способы автоматического морфологического анализа для основных
европейских языков, методы автоматического обнаружения синтаксических структур,
сформулированы требования к семантическим компонентам систем. В рамках
эффективного международного сотрудничества и обмена терминологией созданы
большие автоматические словари с разнообразной лексической информацией, банки
терминологических данных по разным тематическим областям (например, словарь
ЕВРОДИКАТОМ и ряд других словарей, тематика которых определялась тем
обстоятельством, что практический машинный перевод чаще всего имеет дело с
научными и техническими текстами). Результаты работ по МП способствовали началу
и развитию исследований и разработок в области автоматизации информационного
поиска, логического анализа естественно-языковых текстов, экспертных систем,
способов представления знаний в вычислительных системах и т.д.
В СССР в
качестве головной организации по машинному переводу был в 1974 определен
Всесоюзный центр переводов научно-технической литературы и документации (ВЦП),
взявший на себя координацию работ в масштабе страны. Под его эгидой был
проведен ряд крупных международных научных конференций (1975, 1979, 1983, 1985,
1989) по машинному переводу и проблемам научно-технического перевода. В ВЦП
были созданы промышленные системы машинного перевода с английского языка на
русский АМПАР (на основе исследований и разработок коллектива Ю.А.Моторина), с
немецкого языка на русский НЕРПА, с французского языка на русский ФРАП,
автоматические терминологические словари в помощь человеку-переводчику. Система
АМПАР длительное время находилась в промышленной эксплуатации; впоследствии на
ее базе были созданы более эффективные системы МП для персональных компьютеров
семейства СПРИНТ. В ВПЦ была также разработана система МП с русского языка на
английский АСПЕРА. Большой вклад в разработку промышленных систем МП был сделан
ленинградской общесоюзной группой «Статистика речи» под руководством
Р.Г.Пиотровского, а также группами специалистов по