ENTROPI LÀ GÌ

Nhiều người vẫn dùng thuật toán cross-entropy trong machine learning mà không hiểu được entropy là gì, bài viết sau đây sẽ giúp bạn hiểu hơn về nó.

Bạn đang xem: Entropi là gì

Entropy nghĩa là gì?

Ý tưởng về Entropy ban đầu khá khó hiểu, có khá nhiều từ được dùng để mô tả nó: đó là sự hỗn loạn, không chắc chắc, độ bất định, độ bất ngờ, lượng thông tin hay những từ tương tự thế. Nếu cho đến giờ bạn vẫn chưa rõ về nó, thì bạn tới đúng nơi rồi đấy. Tôi sẽ giúp bạn hiểu rõ về Entropy.

Ai nghĩ ra Entropy và vì lý do gì ?

Năm 1948, Claude Shannon lần đầu nhắc tới khái niệm information entropy trong bài viết "“A Mathematical Theory of Communication” (information entropy: entropy thông tin, độ bất định thông tin - tuy nhiên mình nghĩ dùng từ gốc sẽ tốt hơn).

*

Q1mlq4p.png774×166 10.5 KB

Cách ở trên có tốt không ? Giả sử cả người gửi và nhận đều biết rằng nội dung message đều nói về thời tiết của Tokyo. Vậy họ sẽ không cần phải gửi những từ như “Thời tiết”, “Tokyo”, “của” … Họ đơn giản chỉ cần nói “Fine”, “Not fine”, như vậy là đủ.

Xem thêm: 10:00 Eastern Daylight Time ( Edt Time Là Gì, Múi Giờ Miền Đông (Bắc Mỹ)


*

QPJpoCh.png810×493 51.5 KB

Như vậy cách mã hóa này đã đảm bảo không làm mất mát thông tin

*

Kết hợp với công thức tính kích cỡ trung bình đã biết ở phần trước, ta được kích thước mã hóa trung bình nhỏ nhất - đây chính là entropy:

*

Trong đó P(i) là xác xuất của loại tin nhắn thứ i. Hãy ngồi và suy ngẫm về công thức này, chả có gì khó hiểu hay magic ở đây cả, công thức này đơn giản là sự kết hợp giữa tính kích cỡ mã hóa trung bình và kích cỡ mã hóa nhỏ nhất của từng loại tin. Thử 1 vài ví dụ:


vivspeb.png903×474 54.2 KB

Vậy, entropy là: (0.5 x 1 bit)+(0.25 x 2 bits)+(0.125 x 3 bits)+(0.125 x 3 bits)=1.75 bits

Tính chất của Entropy

Entropy cao đồng nghĩa với việc có rất nhiều loại thông tin với xác suất mỗi loại nhỏ. Mỗi 1 message mới xuất hiện, khả năng cao rằng message đó có nội dung khác với nội dung của message trước đó. Ta có thể gọi đó là sự bất định. Khi một loại thông tin với xác suất thấp bỗng nhiên xuất hiện, nó sẽ gây ra bất ngờ hơn so với các loại thông tin có xác suất cao khác. VD: với việc bạn chọn liều 1 trong 5 đáp án, xác suất xuất hiện là 80% sai, 20% đúng, việc bạn chọn đúng sẽ khiến bạn bất ngờ hơn nhiều so với việc chọn sai. Hay nói các khác, thông tin có xác suất càng thấp càng mang nhiều thông tin giá trị.

Hoặc 1 ví dụ khác, nếu phân phối là 90% mưa, 10% nắng thì thông tin dự báo thời tiết về 1 trận mưa sẽ không cung cấp nhiều thông tin (vì ta xác định sẵn tinh thần là trời sẽ mưa). Trong khí đó nếu phân phối là 50% mưa, 50% nắng thì thông tin về việc trời ngày hôm đó mưa hay nắng lại rất giá trị (chứa nhiều thông tin hơn).

Túm lại ta có thể hiểu entropy với các ý nghĩa sau:

entropy là lượng bit trung bình tối thiểu để mã hóa thông tin khi ta biết phân bố các loại thông tin trong đó.entropy biểu thị cho sự hỗn độn, độ bất định, độ phức tạp của thông tin.Thông tin càng phức tạp càng entropy càng cao (hay công sức mã hóa lớn).Entropy là nền tảng trong việc công thức cross-entropy đo lường sai khác giữa các phân bố xác suất.Entropy nhạy cảm với thay đổi xác suất nhỏ, khi 2 phân bố càng giống nhau thì entropy càng giống nhau và ngược lạiEntropy thấp đồng nghĩa với việc hầu hết các lần nhận thông tin, ta có thể dự đoán dễ hơn, ít bất ngờ hơn, ít bất ổn hơn và ít thông tin hơn.

Bài viết được dịch và mình có bổ sung từ bài: Demystifying Entropy của tác giả: Naoki Shibuya

Cảm ơn mọi người đã đọc. Trong thời gian tới mình sẽ cố gắng dịch về Cross-entropy và Demystifying KL Divergence.

  • beat24h