XÂY DỰNG BỘ NGỮ LIỆU ĐỒNG THAM CHIẾU CHO TIẾNG VIỆT

Thứ sáu - 09/10/2020 03:40

Gán nhãn đồng tham chiếu là một vấn đề quan trọng trong ngành xử lý ngôn ngữ tự nhiên. Nó được ứng dụng rộng rãi trong việc xây dựng hệ thống trả lời tự động, trích xuất thông tin,.... Tuy nhiên, trong tiếng Việt, bài toán này gặp phải nhiều thách thức do tính phức tạp của ngôn ngữ tiếng Việt và không có đầy đủ bộ ngữ liệu để khảo sát. Trong phạm vi bài báo này, chúng tôi trình bày quá trình xây dựng bộ ngữ liệu huấn luyện về đồng tham chiếu tiếng Việt dựa trên bộ ngữ liệu huấn luyện tiếng Anh PreCo thông qua phương pháp chiếu nhãn trên song ngữ. Kết quả cuối cùng chúng tôi đã xây dựng bộ ngữ liệu tiếng Việt gồm hơn 9800 câu trích từ 502 đoạn hội thoại cuộc sống hằng ngày đã được gán nhãn đồng tham chiếu. Bộ ngữ liệu này có thể dùng làm ngữ liệu đầu vào cho các nghiên cứu liên quan đến đồng tham chiếu trong tiếng Việt.

Chi tiết bài nghiên cứu: https://vap.ac.vn/Portals/0/TuyenTap/2021/6/18/db78b606b7cc49b6873265977492fa99/90_FAIR2020_paper_50.pdf

Tổng số điểm của bài viết là: 0 trong 0 đánh giá

Click để đánh giá bài viết

  Ý kiến bạn đọc

Icon-Zalo Zalo Icon-Messager Messenger Icon-Youtube Youtube Icon-Instagram Maps
Bạn đã không sử dụng Site, Bấm vào đây để duy trì trạng thái đăng nhập. Thời gian chờ: 60 giây