Chính sách bảo mật mới của Apple, dữ liệu riêng tư tách biệt và liệu nó có an toàn?

pegasus3390

Well-Known Member
attachment.php


Trong suốt nhiều năm qua, Apple ngày càng tập trung vào tính riêng tư của các sản phẩm và dịch vụ cung cấp, việc này nhằm bảo vệ người dùng nhưng nó cũng ảnh hưởng đến những lợi thế cạnh tranh của hãng. Tại sự kiện WWDC vừa rồi, Apple đã công bố 3 tính năng bảo mật mới bao gồm mã hóa file hệ thống, deep learning ngay trên thiết bị và kỹ thuật mới có tên gọi là “privacy differential” (tạm dịch là “dữ liệu riêng tư tách biệt”) điều này cho phép Apple thu thập thông tin ẩn danh một cách hiệu quả hơn từ người dùng.

Mã hóa file hệ thống tại chỗ

Tại sự kiện WWDC năm nay, Apple giới thiệu file hệ thống mới của mình với tên gọi APFS, thay thế cho định dạng file HFS+ trước đây nhằm tối ưu hóa với bộ nhớ flash cũng như kiến trúc CPU mới. Trong số các tính năng mới, file hệ thống này cũng bao gồm luôn cả việc hỗ trợ mã hóa ngay tại chỗ.

Thay vì sử dụng các ứng dụng mã hóa toàn bộ ổ đĩa như trên macOS với File Vault hay VeraCrypt (một trong những hậu duệ của TrueCrypt) thì mọi thứ trên ổ cứng có thể được giải mã trực tiếp. Chúng ta có thể chọn nhiều phương thức từ mã hóa toàn bộ, mã hóa với một mật khẩu hoặc mã khóa hóa nhiều mật khẩu với mỗi file một mật khẩu. Người dùng còn có thể sử dụng những mật khẩu khác nhau để mã hóa các file nhạy cảm và điều tương tự cũng được thực hiện trên iOS với việc được tích hợp mã hóa ngay trên file. Nhưng việc này sẽ được cải thiện hơn nữa với việc mã hóa tại chỗ của file hệ thống mới.

File hệ thống APFS mới hiện vẫn đang được đánh giá và có thể chưa được xuất hiện trên cả iOS lẫn macOS (OS X trước đây) ít nhất là cho đến năm sau, và nó cũng sẽ tạo ra nhiều vấn đề không lường trước được với các ứng dụng bên thứ 3. Những vấn đề này có thể sẽ được giải quyết bởi cả Apple và bên thứ ba trước khi APFS trước khi Apple đưa nó vào hệ thống mặc định.

Deep Learning ngay trên thiết bị

Deep Learning không còn là vấn đề mới, và với đà phổ biến như hiện nay cùng với phần cứng ngày càng mạnh mẽ hơn thì chúng ta sẽ sớm thấy khả năng những chiếc điện thoại có thể deep learning. Và Apple có thể chính là hãng đầu tiên thực hiện việc này với chiếc iPhone sắp tới nếu họ có thể tận dụng được lợi thế GPU mạnh mẽ, mặc dù tất nhiên là nó không hiệu quả như những hệ thống tùy chỉnh.

Hệ thống deep learning sẽ không bao giờ tốt như những hệ thống dựa trên nền tảng đám mây cho việc “huấn luyện” các cỗ máy, đó là công việc đòi hỏi việc tự tạo ra thuật toán, nhưng có có thể “đủ tốt” trong các công việc mang tính “suy luận”, thực hiện công việc dựa trên thuật toán sẵn có. Bởi vì việc tính toán được thực hiện tại chỗ, từ đó nó sẽ hiệu quả hơn (nhanh hơn) là việc liên tục gửi các yêu cầu đi và về giữa server của công ty với thiết bị thông qua kết nối không dây.

Và lợi ích lớn nhất của việc deep learning trên chính thiết bị là khả năng bảo mật. Việc cho phép các trí tuệ nhân tạo (AI) của Google hoặc Facebook có thể phân tích tin nhắn hay hình ảnh cá nhân cũng có nghĩa các công ty này có thể truy cập được tất cả các dữ liệu và nếu có ai đó hack vào server hoặc có yêu cầu của chính phủ hay điều gì khác nữa thì dữ liệu cá nhân của chúng ta sẽ… bạn biết rồi đấy…

Tại WWDC, Apple cũng giới thiệu ứng dụng Photo mới, có thể phân tích được nội dung hình ảnh ngay trên máy để nhóm chúng lại dựa trên các chủ đề nhất định (như những người chúng ta thường chụp hình cùng hoặc cho phép người dùng có thể tìm kiếm với từ khóa cụ thể để rồi sau đó đưa ra hình ảnh dựa trên mô tả (ví dụ như tìm kiếm từ “núi” và nó sẽ chỉ đưa lên hình ảnh về núi cho bạn).

Trong tương lai, Apple có thể mở rộng khả năng xử lý deep learning và cải thiện các ứng dụng cũng như dịch vụ khác, tương tự như Google và các công ty khác đang làm, nhưng lợi ích ở đây chính là khả năng bảo mật thật sự (giữ dữ liệu của người dùng ngay trên thiết bị). Những dữ liệu này có thể được mã hóa tại chỗ trong những file hệ thống sắp được ra mắt. Với những dữ liệu đó, chính Apple cũng phải truy cập để có thể cung cấp đúng dịch vụ cần thiết, và công ty này sẽ dùng phương thức “dữ liệu riêng tư tách biệt” để khiến các dữ liệu đó trở nên “ẩn danh” tốt hơn.

Dữ liệu riêng tư tách biệt

Sau nhiều sự kiện I/O vừa qua, đặc biệt là sự kiện gần đây nhất, rất nhiều người bắt đầu lo ngại rằng điều gì sẽ xảy ra nếu Apple tiếp bước Google trong việc tìm kiếm nhiều hơn dữ liệu cá nhân của người dùng để phân tích, sử dụng cho machine learning và các dịch vụ hỗ trợ bởi AI. Mối lo ngại này không phải ở vấn đề kỹ thuật (tất nhiên là Apple có khả năng để đối đầu với Google trong việc này) mà là vấn đề thông tin cá nhân.

Apple luôn cố gắng để đưa quyền riêng tư của người dùng lên hàng đầu, hầu hết các tính năng nền đám mây của hãng cũng đang bị mâu thuẫn về vấn đề này. Do đó, Apple cần một giải pháp để có thể thu thập được thông tin người dùng, nhưng phải theo cách mà ngay chính cả công ty cũng không xác định được thông tin đó là từ người dùng nào.

Chính vì vậy mà Apple công bố kỹ thuật gọi là “dữ liệu riêng tư tách biệt” được tạo ra như giải pháp cho vấn đề này. Cách thức tính năng này hoạt động là Apple sẽ thu thập những mẫu dữ liệu của người dùng đồng thời đưa thêm thông tin nhiễu vào các mẫu dữ liệu đó để các mẫu dữ liệu đó trở nên “hỗn độn”. Nói cho dễ hiểu hơn một chút dữ liệu của chúng ta có tên người dùng và thông tin bên trong, với kỹ thuật của mình Apple sẽ trộn lẫn tất cả lại với nhau và chỉ sử dụng nội dung người dùng và không có bất cứ ai, hacker, tổ chức chính phủ ngay cả Apple có thể biết được thông tin thu thập được đó là của người nào.

Trước đây kỹ thuật này hầu như chỉ nằm ở phạm vi nghiên cứu, và đến hôm nay Apple muốn ứng dụng nó lên hàng tỷ thiết bị. Mặc dù thực tế là nó sẽ bỏ qua một số lượng nhỏ dữ liệu nhưng nó không đáng kể so với việc thu thập từ rất nhiều người dùng và liên kết chúng lại với nhau. Do đó hệ thống hiện nay thực hiện việc “ẩn danh hóa dữ liệu” gần như không thể bị đánh bại. Nó cũng là bước tiến lớn hơn so với quyền riêng tư thông hường, ít nhất là cho đến khi có phương thức mới tốt hơn được áp dụng. Và nói gì đi nữa thì nó cũng chỉ là “giải pháp về bảo vệ quyền riêng tư” cho “vấn đề trong thu thập dữ liệu người dùng”. Nó không hướng việc thu thập dữ liệu lên hàng đầu nhưng vẫn hiệu quả về mặt chi phí và giữ được khả năng bảo vệ người dùng chống lại những vi phạm về quyền riêng tư ngày càng tăng.

Thực ra Google cũng đã sử dụng kỹ thuật này lên Chrome từ 2014, nhưng họ đổi tên thành RAPPOR, họ nói rằng điểm tốt nhất của kỹ thuật này là nó tạo ra một rừng dữ liệu người dùng nhưng không cho phép khả năng xem xét từng cây riêng lẻ

Lý do của việc này

Vài năm trước đây, người dùng bình thường nhận ra rằng họ đã sử dụng hàng tấn thông tin cá nhân trên các dịch vụ khác nhau. Và nhiều khảo sát nói rằng họ đã bắt đầu cảm thấy lo ngại về điều đó.

Lo ngại này có thể hiểu được khi mà chúng ta nhìn thấy được rằng các công ty đang sử dụng dữ liệu cá nhân của chúng ta để quảng cáo. Mặc dù vậy, vẫn có nhiều lý do tốt để thu thập thông tin sử dụng của người dùng. Ví dụ như Microsoft gần đây giới thiệu công cụ để chẩn đoán ung thư tuyến tụy thông qua việc quan sát các kết quả tìm kiếm từ Bing. Google cũng nổi tiếng với Google Flu Trends (dịch vụ theo dõi dịch cúm). Và tất nhiên là chúng ta cũng được lợi từ các dữ liệu đóng góp để cải thiện chất lượng dịch vụ đang sử dụng, từ việc phản hồi ứng dụng bản đồ cho đến đánh giá nhà hàng, quán ăn.

Không may là thậm chí cả việc thu thập thông tin với mục đích tốt cũng có thể trở nên không tốt. Ví dụ như vào những năm 2000, Netflix đã mở một cuộc thi để phát triển thuật toán gợi ý phim mới tốt hơn. Để hỗ trợ cuộc thi này, hãng đã đưa ra một mẫu dữ liệu người dùng đã được ẩn danh để tranh việc xác định thông tin. Tuy nhiên, việc xóa thông tin người dùng không hiệu quả như mong đợi nên các dữ liệu đó có thể được xác định lại danh tính người dùng và thậm chí là có thể gây ra các vấn đề về pháp lý.

Những vấn đề tương tự chính là điều làm chúng ta nên lo lắng. Không chỉ bởi vì các công ty này thường xuyên chia sẻ dữ liệu mà còn bởi vì sự xâm nhập và các dữ liệu đôi khi cũng bị rò rỉ. Dữ liệu riêng tư tách biệt có thể sẽ là công cụ được được thiết kế để loại bỏ vấn đề này.

Những thành phần nào trong iOS 10 sẽ áp dụng dữ liệu riêng tư tách biệt?

Apple đang đưa tính năng bảo mật mới lên các công cụ như bàn phím, công cụ search Spotlight, và Note. Có vẻ như hãng muốn kiểm tra kỹ thuật mới trên các ứng dụng và dịch vụ này trước. Nếu thành công, công ty này có thể mở rộng việc thu thập thông tin đến các dịch vụ khác như bản đồ chẳng hạn.

Công cụ này cải thiện iOS 10 như thế nào?

Quyền riêng tư phân biệc không chỉ dùng cho việc thu thập dữ liệu mà nó còn có thể giúp cải thiện dịch vụ. Như trong bàn phím của iOS 10, Apple đang thu thập dữ liệu người dùng để có thể cải thiện khả năng gợi ý từ khóa cho QuickType và các emoji. Ngoài việc dựa trên hành vi cá nhân và lượng từ vựng thường dùng trên thiết bị, Apple sẽ dùng kỹ thuật dữ liệu riêng tư tách biệt để có ghể đánh dấu lại cũng như cách sử dụng từ ngữ từ rất nhiều người dùng. Theo cách này, chúng ta có thể dễ dàng chọn những emoji phổ biến và những cụm từ cũng được gợi ý, trước khi cả bạn nhập yêu cầu vào.

Công cụ tìm kiếm Spotlight cũng được hưởng lợi từ đây. Hiện tại, nếu chúng ta search “Đi tìm Dory” chúng ta sẽ có hàng loạt đường link đến bài liết từ các ứng dụng tin tức cho đến các nội dung web, thậm chí nó còn cung cấp cả phương thức mua vé xem phim nếu bạn có các ứng dụng như Fandango. Điều này nhờ có việc thâm nhập sâu hơn, tính năng được giới thiệu năm ngoái trong iOS 9.

attachment.php


Tuy nhiên làm cách nào mà các kết quả này được xếp hạng? Tại sao bài viết từ Apple News đưa lên đầu tiên mà không phải là kết quả của Fandango? Cũng có rất nhiều kết quả không phù hợp được đưa ra, việc thu thập thông tin từ dữ liệu riêng tư tách biệt sẽ cho chúng ta kết quả phổ biến nhất. Nếu như mọi người bỏ qua bài viết từ Apple News mà chọn kết quả từ Fandango, nó sẽ xuất hiện đầu tiên.

Ứng dụng Notes cũng vậy. Ứng dụng này sẽ thông minh hơn một chút trên iOS 10, ngoài việc có thể sử dụng với nhiều người thì ứng dụng này có thể giúp chúng ta tương tác với đoạn chữ để thực hiện các tác vụ khác nhau. Ví dụ như nếu chúng ta viết tên và số điện thoại trên Notes, ứng dụng này sẽ gợi ý việc tạo thêm danh bạ mới. Và những gợi ý này không phải ngẫu nhiên. Việc có nhiều dữ liệu sẽ giúp Apple biết loại ghi chú nào mà người ta đang tạo ra cũng như có thể gợi ý những tác vụ phù hợp cho người dùng.

Sự đánh đổi giữa quyền riêng tư và tính chính xác

Về cơ bản việc thu thập dữ liệu sẽ sử dụng cho những tính toán thống kê phức tạp được sử dụng trong các thuật toán machine learning và sử dụng cho nhiều chức năng khác nhau cho nhiều máy tính dựa trên một cơ sở dữ liệu chung.

Nhưng chúng ta có một lưu ý lớn ở đây. Trong khi việc “rò rỉ thông tin” từ một truy vấn (tương tác với hệ thống) chỉ là một lượng nhỏ, nhưng nhỏ không có nghĩa là không có. Mỗi khi chúng ta truy vấn cơ sở dữ liệu cho một chức năng nào đó, tổng số “rò rỉ” tăng lên và nó có lẽ chẳng bao giờ giảm xuống. Và trong thời gian dài thì những thông tin tích tũy đó trở nên khổng lồ.

Đây đơn giản chỉ là một trong những vấn đề cần giải quyết đối với dữ liệu riêng tư tách biệt. Nó sẽ biểu hiện qua hai vấn đề sau:

Càng nhiều thông tin chúng ta truy vấn vào cơ sở dữ liệu, càng nhiều tín hiệu nhiễu được đưa vào để giảm thiểu rò rỉ thông tin. Điều này có nghĩa là hệ thống đang đánh đổi giữa tính riêng tư và khả năng chính xác của thông tin, điều này có thể sẽ là vấn đề lớn đối với các hệ thống machine learning phức tạp. Một khi dữ liệu bị lọt ra thì nó sẽ biến mất. Tương tự với việc hoạt động thống kê, nếu sai sót nhỏ chúng ta có thể xem như không đáng kể nhưng đến khi đủ nhiều thì nó sẽ ảnh hưởng lớn đến tổng thể. Và lúc này cách tốt nhất có thể làm là loại bỏ cơ sở dữ liệu cũ và bắt đầu lại từ đầu, và nếu chúng ta còn có thể.

Một điều nữa là tổng số lượng thông tin bị rò rỉ được xem như là “quỹ bảo mật”, nó xác định mức truy xuất có thể bị rò rỉ (Và mức độ chính xác của các kết quả này là bao nhiêu). Và việc thiết lập “quỹ” này cũng tiềm ẩn nhiều nguy cơ. Nếu đặt quá cao, chúng ta có thể để lọt thông tin nhạy cảm. Nhưng nếu để nó quá thấp tức là tạo ra nhiễu quá nhiều dẫn đến chính hệ thống cũng không lấy được dữ liệu dẫn đến thông tin thu thập không xài được.

Hiện nay đối với một số ứng dụng trên những chiếc iPhone, việc thiếu chính xác trong việc xác định thông tin cũng không phải vấn đề lớn lắm bởi chúng ta cũng quen với việc đó rồi. Nhưng nếu trong tương lai khi mà kỹ thuật này ứng dụng trên các công việc phức tạp hơn như việc “huấn luyện” cho các hệ thống machine learning, đó mới là cái cần quan tâm.

Chúng ta cần một thiết bị thông minh hơn hay bảo mật hơn?

Theo các chuyên gia, Apple không phải đang tạo ra thứ gì mới mẻ mà đang cho chúng ta thấy chúng ta có thể có được tính bảo mật cao trong khi vẫn có được những tính năng thông minh, và hãng cũng nói rằng họ sẽ thu thập ít thông tin thôi.

Trái ngược với ứng dụng nhắn tin của Google là Allo. Kẻ khổng lồ tìm kiếm này thậm chí còn chẳng bật tính năng mã hóa thông tin. Allo vẫn có tính năng ẩn danh như trên Chrome nhưng nó đơn giản chỉ là sự thỏa hiệp với người dùng. Đó là cách mà công ty này vẫn giữ chút gì đó bảo mật trong khi vẫn vận hành được các tính năng thông minh dựa trên AI. Facebook cũng nói rằng sẽ xem xét đến khả năng sẽ trang bị tính năng mã hóa đầu cuối trên Messenger (thế trước nay không có à >”<)

Apple muốn mang nhiều tính năng thông minh và cũng cần dữ liệu của người dùng nhưng công ty cũng không muốn thỏa hiệp với tính năng mã hóa hiện có. Do đó việc đưa tính năng thông minh ngay trên điện thoại kết hợp với dữ liệu riêng tư tách biệt là cách để Apple thực hiện mục tiêu của mình. Chắc chắn là việc này cũng sẽ khiến các công ty lớn khác đánh giá lại về việc thu thập dữ liệu cũng như cách thức thu thập dữ liệu của mình.

Trong khi đó chúng ta sẽ chờ đợi xem những tính năng mới trên iOS sẽ “thông minh” như thế nào so với những gì mà Google lẫn Facebook có thể làm được. Và tất nhiên là sẽ có nhiều thông tin hơn về cách thức mà dữ liệu riêng tư tách biệt hoạt động cũng như hiệu quả của nó trong việc giữ tính bảo mật trên thiết bị khi phiên bản mới được ra mắt.

 

Di Oi Gi

New Member
Ðề: Chính sách bảo mật mới của Apple, dữ liệu riêng tư tách biệt và liệu nó có an toàn?

an toàn hơn 1 chút, từ 10% lên được 11%

về sau sẽ nhích lên chút nữa
 
Bên trên