Thứ Sáu, 11 tháng 7, 2014

Dữ liệu cá nhân của người dùng Internet đang được khai thác triệt để ra sao?

Những tiết lộ về việc Cơ quan An ninh Quốc gia Mỹ (NSA) thu thập thông tin cá nhân và các hoạt động kỹ thuật số của hàng triệu người trên khắp thế giới đã khiến dư luận chú ý và lo lắng. Nhưng các hãng quảng cáo, tiếp thị và khai thác dữ liệu vận hành những hệ thống đáng ngại và mờ ám không kém mà công chúng ít biết đến hơn.
Dùng các kỹ thuật từ thẻ khách hàng trung thành của siêu thị đến quảng cáo nhắm đến đối tượng cụ thể trên Facebook, các công ty tư nhân thu thập một cách có hệ thống các thông tin rất riêng tư, từ danh tánh của bạn, đến hoạt động và những món bạn mua. Dữ liệu về các hành vi của bạn cả khi lướt mạng lẫn khi không kết nối internet được kết hợp, phân tích, rồi bán cho các hãng tiếp thị, các công ty, chính quyền, và thậm chí cho bọn tội phạm. Phạm vi của việc thu thập, tổng hợp và môi giới thông tin này tương tự như, nếu không muốn nói là rộng lớn hơn, hoạt động của NSA, tuy nhiên nó gần như hoàn toàn không được nhà nước quản lý và công chúng hoàn toàn không biết về nhiều hoạt động của các hãng khai thác dữ liệu và tiếp thị kỹ thuật số.
Ở đây, tôi sẽ bàn về hai điều: việc vô tình, hay thụ động, thu thập dữ liệu do các công ty tư nhân thực hiện; và việc tự nguyện, hay chủ động, thu thập thông tin của chính bản thân do các cá nhân thực hiện. Tuy tôi nghĩ chúng ta nên lo lắng hơn về hình thức thứ nhất, hình thức thứ hai đặt ra câu hỏi liệu chúng ta có thể tận dụng tối đa mạng xã hội mà không góp phần làm lợi cho các công ty lớn.

Tiếp thị cơ sở dữ liệu
Ngành thu thập, tổng hợp và môi giới dữ liệu cá nhân được gọi là “tiếp thị cơ sở dữ liệu”. Acxiom, công ty lớn thứ nhì trong lĩnh vực này, có 23.000 máy chủ xử lý hơn 50 ngàn tỉ giao dịch dữ liệu mỗi năm, theo tờ The New York Times. Công ty này tuyên bố có hồ sơ về hàng trăm triệu người Mỹ, trong đó có 1,1 tỉ cookie trình duyệt (những mẩu dữ liệu nhỏ được gởi đi từ một trang mạng, dùng để theo dõi hoạt động của người sử dụng), 200 triệu hồ sơ di động, và trung bình 1.500 mẩu dữ liệu cho mỗi khách hàng. Các dữ liệu này bao gồm những thông tin lượm lặt từ các nguồn hồ sơ sẵn có như định giá nhà và sở hữu xe, thông tin về hành vi trên mạng được theo dõi qua cookie, quảng cáo trên trình duyệt, và các hình thức tương tự, dữ liệu từ các cuộc khảo sát khách hàng, và hành vi mua sắm không phải trên mạng. Tổng giám đốc Scott Howe nói: “Tầm với kỹ thuật số của chúng tôi chẳng mấy chốc sẽ vươn đến gần như tất cả những người sử dụng Internet ở Mỹ.”
Khi bạn truy cập vào gần như bất cứ trang mạng nào, có một cookie (tập tin nhỏ dạng text) được lưu trữ trên máy tính của bạn. Các cookie “bên thứ nhất” do chính trang mạng đó đặt lên máy, ví dụ Gmail lưu lại mật khẩu của bạn để bạn khỏi cần phải đăng nhập khi truy cập trang đó. Các “cookie bên thứ ba” tồn tại trên nhiều trang mạng khác nhau, theo dõi những trang bạn truy cập, cả thứ tự truy cập. Với những người đã đăng nhập, các trình duyệt Google Chrome và Firefox đồng bộ hóa lịch sử lướt mạng trên các thiết bị khác nhau, kết hợp hoạt động của bạn trên iPad với iPhone với máy laptop của bạn. Mục đích là để hiện quảng cáo cho khớp.
Ví dụ, cách đây mấy đêm, tôi dùng iPhone vào trang mạng LLBean.com để tìm bốt mùa đông. Vài hôm sau, các mẩu quảng cáo của LLBean.com hiện ra trên một blog tin tức mà tôi đang đọc trên iPad. Kiểu “nhắm đối tượng dựa vào hành vi” này sắp lỗi thời, và nhường chỗ cho kiểu “nhắm đối tượng dựa vào tiên đoán”, tức là dùng các kỹ thuật khai thác dữ liệu tinh vi để tiên đoán giùm cho L.L.Bean là liệu có khả năng tôi sẽ mua một món hàng khi nhìn thấy mẩu quảng cáo của LLBean.com.
Acxiom cung cấp “những hiểu biết chuyên sâu rất đặc thù và cao cấp về hành vi” với “số lượng hàng ngàn và bao gồm các quan tâm của khách hàng từ các sở thích về thương hiệu và kênh phân phối đến việc sử dụng sản phẩm và thời điểm mua hàng”. Nói cách khác, Acxiom tạo ra các hồ sơ kỹ thuật số về hành triệu người, dựa trên 1.500 mẩu dữ liệu về họ mà công ty tuyên bố có trong tay. Những dữ liệu này có thể bao gồm trình độ học vấn của bạn; bạn có mấy đứa con; loại xe bạn lái; danh mục đầu tư cổ phiếu của bạn; những món bạn mua gần đây; và sắc tộc và tuổi của bạn. Các dữ liệu này được kết hợp từ nhiều nguồn – ví dụ, danh sách đăng ký tạp chí và các hồ sơ công cộng về sở hữu nhà – để xác định xem bạn có thuộc một số loại đã xác định trước chẳng hạn như “Nhà to Xe lớn” hay “người thành niên có cha mẹ giàu có”. Khi đó Acxiom có thể bán những hồ sơ khách hàng này các khách hàng của mình, trong đó có 12 trong số 15 hãng phát hành thẻ tín dụng lớn nhất, 7 trong số 10 ngân hàng bán lẻ lớn nhất, 8 trong số 10 hãng viễn thông / truyền thông lớn nhất, và 9 trong 10 hãng bảo hiểm nhà và tai nạn lớn nhất.
Acxiom có thể là một trong những hãng môi giới dữ liệu lớn nhất, nhưng hãng này đại diện cho một sự thay đổi đáng kể về cách xử lý thông tin cá nhân trên mạng. Trào lưu “Dữ liệu Lớn” (Big Data), tức là việc sử dụng các kỹ thuật phân tích để hiểu biết chuyên sâu về xã hội trong những nhóm dữ liệu rất lớn, đang nhanh chóng biến đổi nhiều ngành từ y tế đến chính trị bầu cử. Dữ liệu Lớn có nhiều ứng dụng xã hội nổi tiếng, ví dụ được cảnh sát và giới quản lý kinh doanh dùng để tăng năng suất. Nhưng nó cũng làm nảy sinh nhiều thách thức mới đối với quyền riêng tư ở một mức độ và trên một quy mô chưa từng thấy. Dữ liệu Lớn được tạo thành từ “dữ liệu nhỏ”, và những dữ liệu nhỏ có thể hết sức riêng tư.
Nếu để riêng, việc bạn mua một lọ kem xoa làm từ dầu cacao ở cửa hàng Target chẳng có gì đáng để ý. Nhưng Target gán cho mỗi khách hàng một số nhận diện khách (Guest ID) riêng biệt, gắn kết với số thẻ tín dụng của họ, địa chỉ email, hay tên. Mỗi món hàng mua và giao dịch của bạn với Target khi đó được gắn kết với số nhận diện khách hàng của bạn, trong đó có lọ kem xoa.
Hiện nay, Target dành rất nhiều thời gian để nghĩ cách tiếp thị với những người sắp có con. Tuy phần lớn mọi người có thói quen mua sắm khá ổn định – mua giấy vệ sinh ở chỗ này, mua vớ ở chỗ kia – sinh con là một thay đổi lớn trong đời khiến cuộc sống đảo lộn. Vì hồ sơ khai sinh là công khai, các bậc cha mẹ mới sinh con nhận được tới tấp thông tin và tài liệu tiếp thị và quảng cáo. Vì thế, mục tiêu của Target là xác định các bậc cha mẹ trước khi con ra đời. Andrew Pole, trưởng ban thống kê của Target, nói: “Chúng tôi biết rằng nếu chúng tôi xác định được [các bậc cha mẹ mới] trong thời gian ba tháng thứ nhì của thai kỳ, có khả năng lớn là chúng tôi có thể giữ được họ trong nhiều năm.” Pole đã khai thác những lượng dữ liệu khổng lồ về thói quen mua sắm của các phụ nữ có thai và các bậc cha mẹ mới. Ông phát hiện rằng phụ nữ mua một số món nhất định trong khi mang thai, chẳng hạn kem xoa làm từ dầu cacao, thuốc bổ calcium, và giỏ xách lớn có thể dùng luôn làm giỏ đựng tã.
Khi đó Target bắt đầu gởi thư có định hướng đối tượng đến những phụ nữ đang mang thai. Hành động này có tác dụng ngược. Phụ nữ rùng mình ớn lạnh khi nhận được thư – làm sao Target biết họ có thai? Trong một vụ nổi tiếng, cha của một cô gái tuổi thiếu niên gọi đến Target than phiền là hãng khuyến khích thiếu niên có thai khi gởi cho cô những phiếu giảm giá mua tã và ghế dành cho trẻ em trong xe. Một tuần sau, ông ta gọi lại và xin lỗi; cô chưa nói cho cha mình biết là mình có thai.
Vì thế, các nhà quản lý Target đổi chiến thuật. Họ để lẫn các phiếu giảm giá rượu vang và máy cắt cỏ với phiếu giảm giá núm vú giả và giấy chùi Baby Wipes. Phụ nữ có thai có thể dùng các phiếu giảm giá đó mà không nhận ra rằng Target biết họ có thai. Như ông Pole nói với tờ The New York Times Magazine, “Dù ta làm đúng luật, ta có thể làm những việc khiến người khác thấy khó chịu.”
Chính những kỹ thuật này đã được chiến dịch vận động tranh cử của Obama sử dụng với hiệu quả cao trước cuộc bầu cử năm 2012. Một ví dụ nổi tiếng là chiến dịch này đã tuyển mộ một số chuyên gia trẻ xuất sắc nhất về kỹ thuật phân tích và khoa học hành vi, và cho họ vào một phòng gọi là “hang” trong 16 giờ mỗi ngày. Trưởng ban khoa học dữ liệu của chiến dịch này là một phân tích viên trước đây từng khai thác Dữ liệu Lớn để cải tiến hoạt động khuyến mãi của siêu thị. Nhóm siêu sao này đã có thể cung cấp cho Obama các đặc tính dân cư nhắm đến từng đối tượng rất cụ thể – họ có thể tiên đoán chính xác họ có thể thu được bao nhiều tiền quyên tặng từ mỗi email vận động xin tiền. Khi nhóm này phát hiện rằng phụ nữ ở Bờ Đông từ ba mươi đến bốn mươi tuổi không cho tiền nhiều như dự kiến, họ đưa ra hình thức khuyến khích là có thể có cơ hội ăn tối với nữ diễn viên Sarah Jessica Parker. Mỗi buổi tối, chiến dịch này chạy 66.000 mô phỏng để lập mô hình phân tích hiện trạng của cuộc bầu cử. Các phân tích viên của Obama không chỉ sử dụng các kỹ thuật tiếp thị cơ sở dữ liệu hàng đầu, mà họ còn xây dựng các kỹ thuật tân tiến nhất.
Các chiến thuật của chiến dịch Obama minh họa một điều thường bị bỏ sót khi chúng ta bàn về khai thác dữ liệu và tiếp thị: việc chính quyền và giới chính khách là những khách hàng lớn của những hãng tiếp thị và môi giới dữ liệu. Ví dụ, chiến dịch này mua dữ liệu về các thói quen xem truyền hình của người Ohio từ một công ty tên là FourthWallMedia. Mỗi gia đình được gán cho một con số, nhưng tên của những người trong gia đình không được tiết lộ. Tuy nhiên, chiến dịch Obama có thể kết hợp các danh sách cử tri với các danh sách khách hàng đăng ký sử dụng dịch vụ truyền hình cáp, rồi phối hợp với các số nhận dạng được xem là vô danh được dùng để theo dõi những mẫu hình sử dụng hộp tín hiệu cáp truyền hình. Khi đó chiến dịch này có thể phát các mẩu quảng cáo vận động tranh cử đúng vào lúc một số đối tượng cử tri cụ thể nào đó đang xem TV. Do vậy, chiến dịch này mua giờ quảng cáo trong những chương trình khác thường, ví dụ như các sô Sons of Anarchy, The Walking Dead, và Don’t Trust the B—in Apt. 23, thay vì trong các chương trình tin tức địa phương theo khuyến nghị của quan niệm thông thường.
“Nhóm sống trong hang” thậm chí còn có thể khớp các danh sách cử tri với thông tin Facebook, bằng cách dùng Facebook Connect, công nghệ đăng nhập của Facebook (được dùng cho nhiều trang đăng ký sử dụng và các hệ thống bình luận trực tuyến). Biết rằng một số cử tri trong các nhóm này ủng hộ Obama, chiến dịch này đã nghĩ được cách khiến họ thuyết phục những người bạn có lẽ không hào hứng lắm nên đi bầu. Thông qua quan sát các danh sách bạn bè Facebook và so sánh chúng với những hình ảnh có đánh dấu bạn bè (tagged), chiến dịch này khớp nối những “bạn” này với các danh sách những cử tri có thể thuyết phục, rồi vận động những người ủng hộ Obama thuyết phục những người bạn “đời thực” của họ đi bầu.
Mạng xã hội
Xét về những kỹ thuật khai thác và phân tích dữ liệu tinh vi này, liệu có cách nào để chúng ta có thể dùng mạng xã hội – hay chính Internet – mà không thêm thông tin vào hồ sơ của ta được các công ty như Acxiom, Experian, hay Epsilon thu thập?
Mạng xã hội cho phép chúng ta thu thập và theo dõi dữ liệu cho chính mình. Ví dụ, tôi đã dùng một trang mạng tên là Last.fm kể từ năm 2005 để theo dõi tất cả những bản nhạc số mà tôi đã nghe khi dùng iTunes hay Spotify. Nhờ đó, tôi có được cái nhìn lý thú về việc các sở thích âm nhạc của mình đã thay đổi ra sao theo thời gian, và Last.fm có thể giới thiệu cho tôi những ban nhạc ít ai biết đến dựa trên lịch sử nghe nhạc khá chi tiết này.
Dùng mạng xã hội cho phép chúng ta kết nối với bạn bè; hiểu biết nhiều hơn về bản thân; thậm chí làm đời ta tươi đẹp hơn. Phong trào Quantified Self (Bản thân Định lượng) dựa trên những kỹ thuật đã được phụ nữ dùng mấy chục năm nay, chẳng hạn như đếm số calorie, khuyến khích dùng dữ liệu cá nhân để hiểu biết bản thân. Ví dụ, đo lường các chu kỳ giấc ngủ của bạn theo thời gian có thể giúp bạn tránh dùng đồ uống có chất caffeine sau 4 giờ chiều, hoặc biết rằng nếu muốn ngủ được, bạn không được dùng Internet trong một giờ trước khi đi ngủ.
Nhưng các dữ liệu này hết sức hữu dụng cho các hãng môi giới dữ liệu. Thử tưởng tượng một hãng bảo hiểm y tế sẽ phản ứng ra sao khi thấy mức tiếp nhận calorie của bạn trên MyFitnessPal, số bước đi của bạn mỗi ngày do Fitbit theo dõi, số lần bạn đến phòng tập thể dục gần nhà được thể hiện trên Foursquare, và món bạn ăn dựa trên những hình ảnh bạn đưa lên Instagram. Mỗi mẩu thông tin vụn vặt tự thân nó chẳng có ý nghĩa gì, nhưng việc tổng hợp số thông tin này vẽ ra được một bức tranh tổng thể. Các hãng theo dõi dữ liệu có thể truy cập các thông tin như vậy một cách tập trung và đưa chúng vào các cơ sở dữ liệu của họ. Hai hệ quả lớn của kiểu thu thập dữ liệu này đáng được chú ý nhiều hơn.
Thứ nhất là sự phân biệt đối xử dữ liệu. Một khi khách hàng được phân chia thành các phân khúc theo đặc tính dân cư, họ có thể được phân loại. Một bài thuyết trình của hãng Acxiom tại Tổ chức Tiếp thị Khách hàng trong năm 2013 đã chia khách hàng thành “các phân khúc giá trị khách hàng” và nhận xét rằng trong khi nhóm 30% khách hàng cao cấp nhất làm tăng 500% giá, nhóm 20% khách hàng ở cấp thấp nhất lại làm giảm 400% giá trị. Nói cách khác, điều này buộc các công ty quan tâm rất nhiều đến các khách hàng cao cấp nhất, trong khi phớt lờ nhóm 20% ở cấp thấp nhất vì những người này có thể dành “quá nhiều” thời gian cho các cuộc điện thoại dịch vụ khách hàng, có thể khiến công ty tốn kém vì họ trả hàng hay dùng phiếu giảm giá, hoặc có những hành vi khác gây tốn kém nhiều hơn giá trị họ mang lại cho công ty.
“Những đối tượng giá trị thấp” này được gọi là “vô giá trị” (waste) trong thuật ngữ chuyên ngành. Joseph Turow, một giáo sư về truyền thông ở Đại học Pennsylvania nghiên cứu tiếp thị chuyên biệt, đặt câu hỏi chuyện gì sẽ xảy ra với những người nằm trong các chủng loại “vô giá trị” mà họ hoàn toàn không biết hay không được thông báo. Họ có bị phân biệt đối xử về giá? Dịch vụ kém? Họ có bị bỏ lỡ những món, những khoản dành cho người khác? Sự phân biệt đối xử như vậy lại càng xảo quyệt hơn vì nó hoàn toàn vô hình.
Thứ hai, chúng ta có thể lo ngại nhiều về việc do thám của chính quyền hơn về việc các hãng tiếp thị hay môi giới dữ liệu thu thập thông tin cá nhân, nhưng như vậy coi như quên xét đến thực tế là chính quyền thường xuyên mua dữ liệu từ các hãng này. ChoicePoint, nay thuộc sở hữu của Elsevier, là một hãng tổng hợp dữ liệu khổng lồ, kết hợp dữ liệu cá nhân lấy từ các cơ sở dữ liệu công lẫn tư, trong đó có số An sinh Xã hội, báo cáo tín dụng, và hồ sơ hình sự. Hãng này có 17 tỉ hồ sơ về các doanh nghiệp và cá nhân, được bán cho khoảng 100.000 khách hàng, trong đó có 35 cơ quan chính phủ và 7.000 cơ quan thực thi pháp luật cấp liên bang, tiểu bang, và địa phương.
Ví dụ, Bộ Ngoại giao Mỹ mua các hồ sơ về hàng triệu công dân Mỹ La tinh, rồi các hồ sơ này được đối chiếu với các cơ sở dữ liệu di trú. Choicepoint cũng bị điều tra về việc bán 145.000 hồ sơ cá nhân cho một đường dây ăn cắp danh tánh. Gần đây hơn, Experian, một trong ba hãng thông tin tín dụng lớn, đã bán nhầm hồ sơ cá nhân cho một tin tặc người Việt. Bọn lừa đảo gọi các hồ sơ này, trong đó có số An sinh Xã hội và nhũ danh của mẹ, là “thông tin trọn bộ” (fullz) vì chúng chứa đủ thông tin cá nhân để bọn bất lương xin thẻ tín dụng hoặc vay tiền.
Cách đây mấy năm, tôi tham quan một phòng thí nghiệm của một hãng quảng cáo lớn. Họ giới thiệu với những công nghệ theo dõi khách hàng tân tiến nhất. Một ngày nào đó trong tương lai không xa, nếu bạn đang ở trong tiệm Duane Reade, vu vơ nhìn một kệ lớn bày đủ loại dầu gội đầu và cố nghĩ xem nên mua loại nào, kệ hàng sẽ theo dõi các ánh mắt của bạn và những chai nào bạn cầm lên và săm soi kỹ. Dùng dữ liệu này, Duane Reade có thể dùng thuật toán tạo ra một phiếu giảm giá cho một nhãn dầu gội đầu cụ thể mà bạn có thể in ra ngay tại kệ hàng đó. Tôi đã xem một ứng dụng thí nghiệm theo dõi những di chuyển của khách hàng trong một thương xá, dựa trên các số xác định đơn nhất, tức MACaddress, của điện thoại di động của họ, được cất trong giỏ hay túi nhưng có thể được các thiết bị theo dõi vô tuyến lần theo. Trong tất cả những trường hợp này, người ta lại không biết mình đang bị theo dõi. Những thao tác này có thể được mô tả trong một đoạn lẩn khuất đâu đó ở cuối một chính sách bảo vệ quyền riêng tư hết sức rối rắm mà khách hàng có thể không chú ý khi họ mua thiết bị, hoặc được in trên một thông cáo kế bên một máy quay giám sát an ninh (CCTV camera). Tuy có thể không phạm pháp, nhưng những điều này dường như không hợp đạo lý.
Tuy giải pháp đơn giản cho những vấn đề này là không chọn các thẻ khách hàng trung thành, ngưng dùng Internet, hay mạng xã hội, nhưng làm như vậy là không thực tế. Quả thực, gần như không thể có cuộc sống, cả trên mạng lẫn khi không kết nối, mà không bị theo dõi, trừ phi ta có những cách cực đoan để tránh né. Chính quyền thành phố theo dõi các dòng di chuyển của xe cộ; thẻ nhận dạng tần số radio được gắn vào áo quần được giặt ủi; máy quay giám sát an ninh CCTV có mặt ở hầu hết các cửa hàng. Công nghệ phát triển nhanh hơn luật bảo vệ người tiêu dùng của chúng ta, mà trong nhiều trường hợp luật lệ lỗi thời và khó áp dụng cho thế giới kết nối của chúng ta.
Ủy ban Thương mại Liên bang (FTC) và Ủy ban Thương mại của Thượng viện Mỹ hiện đang điều tra các hãng môi giới dữ liệu và kêu gọi minh bạch hơn trong việc thu thập và truyền bá thông tin cá nhân. Những người trong chúng ta quan ngại về quyền riêng tư phải tiếp tục đòi hỏi có giám sát và kiểm soát đối với những công ty tư nhân này. Người dân nên được khuyến khích nghiên cứu các công cụ bỏ lựa chọn, ngăn chặn quảng cáo, và các phần mềm plug-in có cho hầu hết các nền tảng hệ điều hành. Tuy việc giám sát NSA sát sao hơn là điều cần thiết, chúng ta phải gây áp lực tương tự với các công ty tư nhân để bảo đảm rằng những chiến dịch gởi thư và các quảng cáo vô hại nhắm đến đối tượng cụ thể không dẫn đến những vi phạm nguy hiểm và tác hại về quyền riêng tư cá nhân.
Alice E. Marwick
Bản tiếng Việt © 2014 Phạm Vũ Lửa Hạ
(Bản dịch, ký tên Khương An, đăng trên Thời Mới Canada, ngày 8/1/2014.)

Lưu trữ

Tự điển



Tự điển Việt Nam
đã được bổ sung những ý nghĩa "chính thức"