Bigram

Bigram hay còn gọi là digram là một dãy bao gồm hai phần tử liền kề nhau từ một chuỗi các token, chẳng hạn như các ký tự, các âm tiết hoặc các từ.

Một bigram là một n-gram với n bằng 2. Phân phối tần số của mỗi bigram trong một chuỗi thường dùng cho phân tích thống kê văn bản đơn giản trong nhiều ứng dụng, bao gồm ngôn ngữ học tính toán, mật mã học, nhận dạng tiếng nói và nhiều ứng dụng khác.

Các gappy bigram hoặc các skipping bigram là các cặp từ cho phép khoảng cách (có lẽ để tránh việc nối từ, hoặc cho phép các mô phỏng phụ thuộc, dạng như trong một văn phạm phụ thuộc).

Ứng dụng Bigram

Bigram được sử dụng thành công nhất cho các mô hình ngôn ngữ để Nhận dạng tiếng nói. Các kỹ thuật tấn công tần số dạng bigram có thể dùng trong mật mã học để phá các mật mã (cryptogram). Tần số bigram cũng là một trong cách tiếp cận với nhận dạng ngôn ngữ.

Ví dụ Bigram

Từ một câu mẫu: "I go to school." sẽ cho ra nhiều dạng bigram khác nhau.

Các dạng bigram

    Bigram từ
    ("I", "go"), ("go", "to"), ("to", "school")
    Bigram ký tự với _ thay cho khoảng trắng
    ("I","_"), ("_","g"), ("g","o"), ("o","_"),...,("l",".")
    Bigram token
    ("I", "go"), ("go", "to"), ("to", "school"), ("school", ".")

Mã Python

Mã python dành cho trường hợp bigram theo từ vựng với việc sử dụng thư viện NLTK.

import nltk  word_data = "I go to school." nltk_tokens = nltk.word_tokenize(word_data)    print(list(nltk.bigrams(nltk_tokens))) 

Xem thêm

Tham khảo

Tags:

Ứng dụng BigramVí dụ BigramBigramMật mã họcN-gramNgôn ngữ học tính toánNhận dạng tiếng nói

🔥 Trending searches on Wiki Tiếng Việt:

Tuyên ngôn độc lập (Việt Nam Dân chủ Cộng hòa)Nguyễn Chí ThanhVõ Thị Ánh XuânChăm PaQuân đoàn 12, Quân đội nhân dân Việt NamĐường Trường SơnVụ sai phạm tại Tập đoàn Thuận AnFujita Joeru ChimaĐồng NaiSinh sản hữu tínhNinh BìnhHứa Quang HánGoogle MapsPhạm Văn ĐồngCúp bóng đá châu ÁBùi Văn CườngAlbert EinsteinSự kiện Tết Mậu ThânRunning Man (chương trình truyền hình)Vương Đình Huệ từ chức Chủ tịch Quốc hộiEscherichia coliKim Hye-yoonNew ZealandChâu Tinh TrìMặt trận Dân tộc Giải phóng miền Nam Việt NamThanh gươm diệt quỷMôi trườngĐội tuyển bóng đá quốc gia Việt NamĐại học Kinh tế Thành phố Hồ Chí MinhHùng VươngDanh mục các dân tộc Việt NamQuân ủy Trung ương (Việt Nam)Vụ sai phạm tại Tập đoàn Phúc SơnTottenham Hotspur F.C.Trần Thủ ĐộSự kiện 30 tháng 4 năm 1975Quan VũChiến dịch Linebacker IITrận Bạch Đằng (938)Người Buôn GióHamida Banu Begum69 (tư thế tình dục)Nông Đức MạnhKhởi nghĩa Lam SơnHồ Dầu TiếngMông CổTF EntertainmentDanh sách quốc gia theo GDP (danh nghĩa)Hải PhòngMao Trạch ĐôngNguyễn Duy NgọcFansipanĐường Thái TôngTự ĐứcHà NộiLiên XôQuỳnh búp bêThuốc thử TollensSố nguyênFC BarcelonaNhà NguyễnArsenal F.C.XĐạo Cao ĐàiTổng cục Tình báo, Quân đội nhân dân Việt NamKim Ji-won (diễn viên)Hình bình hànhLười (động vật)Lê Minh HưngLê Minh KháiTrần Quang PhươngLiverpool F.C.Bảng chữ cái tiếng AnhBoeing B-52 StratofortressTô LâmNgô Xuân LịchVladimir Vladimirovich PutinCampuchia🡆 More