컴퓨터 언어학

컴퓨터 언어학은 컴퓨터적인 관점에서 언어를 연구하는 분야이다. 컴퓨터 언어학자들은 다양한 언어학적 현상에 대해 컴퓨터 모델을 제공하는데 관심이 있다. 컴퓨터 언어학의 주요 응용 분야는 다음과 같다.

  • 기계 번역
  • 자연 언어 인터페이스
  • 문법과 스타일 검사
  • 문서 프로세싱, 정보 검색

Computational Linguistics

Computational linguistics is the scientific study of language from a computational perspective. Computational linguists are interested in providing computational models of various kinds of linguistic phenomena. These models may be “knowledge-based” (“hand-crafted”) or “data-driven” (“statistical” or “empirical”). Work in computational linguistics is in some cases motivated from a scientific perspective in that one is trying to provide a computational explanation for a particular linguistic or psycholinguistic phenomenon; and in other cases the motivation may be more purely technological in that one wants to provide a working component of a speech or natural language system.

The main application areas of Computational Linguistics are like the following areas:

  • Machine Translation
  • Natural Language Interfaces
  • Grammar and style checking
  • Document processing and information retrieval
  • Computer-Assisted Language Learning


기계 번역

기계 번역은 컴퓨터를 사용하여 한 언어의 텍스트를 다른 언어로 번역하는 작업이다. 본 연구실에서는 특히 한국어-독일어/스페인어/프랑스어 언어쌍을 대상으로 기계 번역의 관점에서 문제가 될 만한 언어학적 현상에 대한 연구를 통해 목표 언어의 번역 결과를 향상시키는 방향으로 연구를 진행하였다. 또한 한국어-영어 언어쌍을 대상으로 동시 통역에서 번역의 정확도와 번역의 속도를 고려한 최적의 분절 단위를 찾기 위한 연구를 진행하였다.

  • 한국어 영형 대명사 복원
  • 스페인어 영형 주어 복원
  • 프랑스어 과거 시제 선택
  • 독일어/한국어 통제언어 개발
  • 한국어/영어 최적의 분절 단위를 찾기 위한 방법론 제안

Machine Translation

Machine translation (MT) is the application of computers to the task of translating texts from one natural language to another. On a basic level, MT performs simple substitution of words in one language for words in another, but that alone usually cannot produce a good translation of a text because recognition of whole phrases and their closest counterparts in the target language is needed. Solving this problem with corpus and statistical techniques is a rapidly growing field that is leading to better translations, handling differences in linguistic typology, translation of idioms, and the isolation of anomalies.

Statistical machine translation like Google translator tries to generate translations using statistical methods based on bilingual text corpora. Where such corpora are available, good results can be achieved translating similar texts, but such corpora are still rare for many language pairs. Given enough data, machine translation programs often work well enough for a native speaker of one language to get the approximate meaning of what is written by the other native speaker. The difficulty is getting enough data of the right kind to support the particular method.



오피니언 마이닝

오피니언 마이닝은 특정 제품에 대한 대중들의 의견을 추적하기 위한 자연 언어 프로세싱의 한 유형이다. 오피니언 마이닝은 논조 분석 Sentiment Analysis이라고 불리기도 하는데 한 제품에 대한 의견들을 수집하고 분류하는 시스템을 만드는 과정을 포함한다. 본 연구실에서는 우선 특정 주제에 대한 긍/부정 의견이 포함된 독일어 텍스트에서 표출되는 감정 Sentiment 내지는 논조를 자동으로 분석하여 분류하는 시스템 개발을 목표로 연구를 진행해왔다. 이를 위해 독일어의 어휘 정보 등을 활용하는 기계 학습 방법을 사용하였다.

Opinion Mining

Opinion mining is a type of natural language processing for tracking the mood of the public about a particular product. Opinion mining, which is also called sentiment analysis, involves building a system to collect and categorize opinions about a product. Automated opinion mining often uses machine learning, a type of artificial intelligence (AI), to mine text for sentiment.

Opinion mining can be useful in several ways. It can help marketers evaluate the success of an ad campaign or new product launch, determine which versions of a product or service are popular and identify which demographics like or dislike particular product features. For example, a review on a website might be broadly positive about a digital camera, but be specifically negative about how heavy it is. Being able to identify this kind of information in a systematic way gives the vendor a much clearer picture of public opinion than surveys or focus groups do, because the data is created by the customer.



언어 리소스 개발

언어 리소스는 최근 자연 언어 프로세싱에서 한 언어를 이해하고 모델링하는데 필수적으로 필요한 자원이다. 특정 언어의 리소스가 많은 경우 해당 언어를 처리하는데 큰 도움이 된다. 반면 언어 리소스가 부족한 언어들을 연구하기 위해서는 우선 원시 텍스트나 태깅 정보가 부착된 충분히 큰 언어 리소스를 구축해야 하는데 이러한 작업은 시간과 노력이 많이 들기 때문에 언어 리소스를 개발하는 단계에서 어려움을 겪기도 한다. 본 연구실에서는 한국어/독일어/스페인어/프랑스어에 대한 연구를 수행하기 위해 다양한 언어 리소스를 구축해 왔다.

  • 한국어 음성인식 구어텍스트 태깅 코퍼스
  • 한국어 영형 대명사 코퍼스
  • 한국어 논조 텍스트
  • 독일어 논조 텍스트
  • 스페인어 영형 주어 코퍼스
  • 프랑스어 과거 시제 코퍼스
  • 한국어 위키 QA 코퍼스
  • 한국어 개체명 처리를 위한 엔트리 코퍼스
  • 한국어 빈출 발화문 query 분석 코퍼스

Language Resource Development

Language resources are really much required for understanding and modeling the language in the present approaches. The language that has a rich language resource gains a big benefit in making a big advance in language processing. On the other hand, the less resource language is struggling with preparing a large enough language resource such as raw text or annotated corpora. It is a labor intensive and time consuming task. Moreover, computerization of the text is another non-trivial effort. There needs a supportive computing environment in inputting, encoding, retrieving, analysis, etc.. We’ve developed resources for sentimental analysis and zero pronoun phenomenon.