기말 과제 - 4. Concordance List

4. Concordance List에 대해서 다음 각각의 질문에 답하시오.

(1) KWIC에 대해서 설명하시오. (10점)

Frequency list는 단어들이 실제로 어떻게 사용되고 있는 지 정확히 알 수 없는 단점이 있다. 이러한 단점을 보완하기 위해서는 단어들의 자세한 주변 내역이 필요하다. KWIC은 단어들이 쓰인 문맥을 알아내는 방법 중의 하나로 용례를 알고 싶은 텍스트를 중앙에 두고 원문에서 텍스트의 앞, 뒤에 있는 임의의 수의 문자들로 둘러싸서 그 텍스트가 다른 단어들과 어떻게 연관되어 있는지 연구할 수 있게 해준다. 용례를 활용하여 단순한 단어 검색의 약점을 보완하고 보다 빠르고 정확한 결과물을 얻을 수 있도록 하여 검색 도구가 쓰는 방식 중의 하나로 자리잡고 있다.

위와 같이 랭킹 92위의 master의 용례를 보고 싶다면 awk같은 프로그래밍 언어로 작성하여 액셀에서 불러들여 작업하거나 MicroConcord같은 문맥행 추출 프로그램을 통해 키워드를 텍스트에서 분리한다.

(2) KWIC 목록을 만들 때, 목록의 정렬 기준에 대해서 한국어와 영어를 중심으로 예를 들어 설명하시오. (10점)

1. 출현 순서에 따른 정렬

텍스트의 여러 부분에서 용례의 차이를 조사하고자 하는 경우에 이러한 방식이 유용하다. 목록에 포함되어 있는 문맥행들을 여러 부분으로 나누고 그 나뉜 부분들을 서로 비교하여 용례의 차이를 살펴보려고 한다는 것을 각 부분마다 노트 형식으로 밝혀줄 수 있다. 이 방식에서는 한글과 영어의 차이가 없다.

2. 키워드 순서에 따른 정렬

와일드 카드나 기타 다른 정규표현을 사용하여 여러 개의 키워드를 입력한 경우에 아주 유용하다. 영어의 경우에는 변화를 하는 경우가 많은데, 여러 가지 키워드가 섞여있기 때문에 어느 행이 중요하고 어느 행이 그렇지 않은지 알아보기가 힘들다. 키워드 순서로 정렬했다면 각 단어형태들이 분리되기 때문에 문맥행들을 훨씬 수월하게 읽을 수 있다. 예를 들어, make의 용례를 파악하고자 할 때, made, making 등과 섞여있다면 의미를 파악하는 것에 수고가 더 많이 든다. 이 때, 키워드를 다음 그림과 같이 정렬한다면 그 용법들이 분리되기 때문에 훨씬 쉽게 문맥행을 읽을 수 있다. 영어의 동사는 ed를 넣어주면 시제 변화가 이루어지는 want와 같이 규칙적으로 변화하는 동사 외에도 go처럼 go - went - gone과 같이 불규칙 변화를 하는 경우도 많은데 이런 경우는 선수 작업을 통해 모두 찾아 주어야 한다.

한글의 경우는 영어보다 복잡한 작업을 필요로 한다. 한글에는 영어에는 없는 조사가 있고, 영어 동사의 불규칙 변화보다 훨씬 다양한 어미 변화를 하기 때문이다. 예를 들어 '가다'라는 동사만 봐도 '가고', '가니', '가서'같이 '가-'를 남겨두는 변화뿐만 아니라 '갈 (것이다)', '갔으므로', '감', '갔다' 처럼 '가-'에 鱁, 끁, ꁁ 따위가 붙어서 어근의 텍스트(전자텍스트라면 ASCII 혹은 Uni-code의 코드값)가 아예 바뀌어 버리기 때문이다. 그러므로, 이들을 분리해서 인식하는 어려운 작업이 필수적이다.


걱정를 사용해서 총 7건의 용례를 찾았습니다. -------------------------------------------------------------------------- 러분, 요새 얼마나 충격이 크시고 또 걱정이 많으십니까? IMF협정이후 많은 분들을 만 으려는 배를 어떻게 띄우느냐 이것을 걱정할 시점입니다. 말씀드립니다. 다. 그러기 때문에 이 대표는 그것을 걱정할 필요가 없습니다. 그 다음에는 국민이 투 보께서 곤혹스러워지지 않을까 하는 걱정을 합니다. 저는 오히려 반문하고 싶어요. 신 안목에 있어서는 제가 볼 때는 좀 걱정스럽다 생각합니다. 우리가 OECD를 가입하 어서 문제의 판단에 지도자로서 조금 걱정스럽다 하는 얘기를 한 것입니다. 원상대로 유지할 수 있을지 상당히 걱정이 됩니다. 이 문제에 대해서는 나라 일을

3. 문맥행 내의 다른 단어들에 따른 정렬

한 키워드가 많이 출현하는 경우에 다양한 용례를 높이기 위해서 문맥을 잘 살펴보아야 한다. 한글이든 영어이든 동사의 경우, 키워드가 목적어 없이 사용되기도 하고 목적어를 오른쪽에 두고 사용되기도 한다면 키워드의 오른쪽에 오는 첫 번째 단어를 기준으로 정렬한다면 문형을 찾기가 훨씬 쉬워진다. 다른 품사의 단어들도 마찬가지로 주변 내역이 정렬되어 있다면 문맥을 파악하는데 훨씬 수월해질 것이다.

한글과 영어의 변화에 따른 대처는 2. 키워드 순서에 따른 정렬과 동일하다.

키워드의 오른쪽의 단어를 기준으로 정렬하는 방법이 기본적이지만 키워드의 왼쪽의 단어를 기준으로 정렬하는 방법도 있다.

'네이버 블로그 백업 > 전산영어학' 카테고리의 다른 글

기말 과제 - 6. Collocation과 Idiom의 차이 (5)	2003.12.23
기말 과제 - 3. Word-Frequency List (0)	2003.12.23
기말 과제 - 2. 첨부된 파일 [ex_01.txt]는 "캔터베리 이야기"에서 추출한 어휘 목록이다. (0)	2003.12.23

전산쟁이 wizmusa의 IT 이야기

기말 과제 - 4. Concordance List

'네이버 블로그 백업 > 전산영어학' 카테고리의 다른 글

티스토리툴바

기말 과제 - 4. Concordance List

'네이버 블로그 백업 > 전산영어학' 카테고리의 다른 글

관련글

티스토리툴바