Thị giác máy tính (Computer Vision) là giữa những lĩnh vực hot tốt nhất của khoa học máy tính xách tay và nghiên cứu trí tuệ nhân tạo. Dù chúng vẫn không thể đối đầu và cạnh tranh với sức khỏe thị giác của đôi mắt người, đã có rất nhiều ứng dụng có ích được tạo thành khai thác tiềm năng của chúng.

Bạn đang xem: Thị giác máy tính là gì

Khi bạn nhìn vào hình hình ảnh sau đây, bạn sẽ thấy người, đồ vật thể và các tòa nhà. Nó mang về những cam kết ức về mọi trải nghiệm trong vượt khứ, những tình huống tương từ bỏ bạn gặp gỡ phải. Đám đông đang đối mặt cùng hướng với giơ điện thoại cảm ứng lên, điều này cho bạn biết rằng đây là một các loại sự kiện. Người đứng gần máy hình ảnh đang khoác áo thun gợi nhắc về sự kiện có thể xảy ra. Khi các bạn nhìn vào những chi tiết nhỏ khác, chúng ta có thể suy ra nhiều tin tức hơn từ hình ảnh.

*
Ảnh của Joshua J. Cotten

Nhưng đối với máy tính, hình ảnh này y như tất cả các hình ảnh khác, đó là 1 mảng các pixel, những giá trị số đại diện cho những sắc độ của color đỏ, xanh lá cây cùng xanh dương. Một trong những thách thức mà các nhà khoa học máy tính xách tay phải trang bị lộn từ trong năm 1950s là tạo ra những bộ máy có thể đọc được hình ảnh và video clip như con người. Lĩnh vực thị giác máy tính từ đó đang trở thành một giữa những lĩnh vực nghiên cứu và phân tích hot duy nhất về khoa học máy tính và trí tuệ nhân tạo.


*

Nhiều thập kỷ sau, chúng ta đã đạt được tân tiến lớn vào việc tạo ra các phần mềm hoàn toàn có thể hiểu và mô tả nội dung của dữ liệu một phương pháp trực quan. Nhưng chúng ta cũng đã nhận được ra rằng rất cần được đi xa tới cả nào trước khi có thể hiểu và tái tạo một trong những những tác dụng cơ phiên bản của cỗ não con người.

Sơ lược về lịch sử vẻ vang thị giác máy tính

Năm 1966, Seymour Papert với Marvin Minsky, hai nhà mũi nhọn tiên phong về trí tuệ nhân tạo, sẽ khởi cồn một dự án công trình mang thương hiệu “Summer Vision Project“, một nỗ lực kéo dãn dài hai tháng với kéo theo 10 fan để tạo ra một hệ thống máy tính có thể nhận dạng những vật thể vào ảnh.

Để hoàn thành nhiệm vụ, một chương trình máy tính xách tay phải có khả năng xác định px nào trực thuộc về đối tượng nào. Đây là một trong những vấn đề mà hệ thống thị giác của con người, được hỗ trợ bởi kiến ​​thức to lớn của bọn họ về nhân loại thực và hàng tỷ năm tiến hóa, rất có thể giải quyết một giải pháp dễ dàng. Nhưng so với máy tính, quả đât chỉ bao hàm các con số, đó là 1 trong nhiệm vụ đầy thách thức.

Vào thời điểm của dự án công trình này, phân nhánh thống trị nòng cốt của trí tuệ tự tạo là symbollic AI, nói một cách khác là AI dựa trên quy tắc (rule-based AI): những lập trình viên tự chỉ định những quy tắc để phát hiện các đối tượng người tiêu dùng trong hình ảnh. Nhưng vấn đề là những vật thể trong ảnh có thể xuất hiện thêm từ các góc khác nhau và trong nhiều điều kiện ánh sáng khác nhau. Đối tượng rất có thể xuất hiện tại trên một loạt những nền khác nhau hoặc bị các đối tượng người dùng khác che khuất một phần. Mỗi kịch phiên bản này tạo nên các quý giá pixel khác nhau và thực tiễn không thể tạo thành quy tắc thủ công cho từng cái một trong những chúng.

Hẳn nhiên, Summer Vision Project đã không đi xa và với lại hiệu quả khá hạn chế. Vài năm tiếp theo đó, vào năm 1979, nhà khoa học Nhật phiên bản Kunihiko Fukushima đã khuyến cáo neocognitron , một khối hệ thống thị giác máy tính xách tay dựa trên nghiên cứu khoa học tập thần gớm được thực hiện trên vỏ não về mắt của nhỏ người. Mặc dù neocognitron của Fukushima cần thiết thực hiện bất kỳ nhiệm vụ trực quan tinh vi nào, tuy nhiên nó đang đặt nền tảng gốc rễ cho trong những phát triển đặc biệt quan trọng nhất trong lịch sử thị giác sản phẩm công nghệ tính.

Cuộc biện pháp mạng học sâu – Deep Learning

Vào những năm 1980s, công ty khoa học máy vi tính người Pháp Yan LeCun đã reviews mạng thần khiếp tích chập (convolutional neural network, CNN), một hệ thống AI lấy cảm giác từ neocognitron của Fukushima. Một CNN bao gồm nhiều lớp tế bào thần khiếp nhân tạo, những thành phần toán học tập mô rộp gần giống hoạt động của các phiên bạn dạng sinh học của chúng.

*

Khi một CNN xử trí một hình ảnh, từng lớp của nó sẽ trích xuất các đặc trưng ví dụ từ những pixel. Lớp trước tiên phát hiện đa số thứ siêu cơ bản, ví dụ điển hình như các cạnh dọc và ngang. Khi bạn dịch chuyển sâu hơn vào mạng thần kinh, các lớp sẽ phát hiện những đặc trưng phức hợp hơn, bao hàm các góc với hình dạng. Các lớp sau cuối của CNN phạt hiện đều thứ rõ ràng như khuôn mặt, góc cửa và xe hơi. Lớp đầu ra output của CNN cung cấp một bảng những giá trị số biểu lộ xác suất nhưng mà một đối tượng ví dụ được phát hiện tại trong ảnh.

Mạng thần ghê tích chập của LeCun rất tuyệt vời và hoàn hảo nhất và cho biết thêm rất nhiều hứa hẹn, nhưng chúng bị cản trở bởi vì một sự việc nghiêm trọng: Điều chỉnh và áp dụng chúng đòi hỏi một lượng lớn tài liệu và tài nguyên tính toán không có sẵn tại thời khắc đó. CNN cuối cùng đã search thấy vấn đề sử dụng dịch vụ thương mại trong một số lĩnh vực hạn chế như bank và dịch vụ bưu chính, vị trí chúng được sử dụng để xử lý các chữ số và chữ viết tay bên trên phong bì và những tờ séc. Nhưng trong nghành nhận diện đối tượng, chúng ta đã lose và nhường chỗ mang lại các kỹ thuật học tập máy khác, như ‘support vector machines’ với ‘random forests’.

Xem thêm: Tóc Mái Cho Mặt Tròn Cắt Mái Gì, Mặt Tròn Để Mái Gì Dễ Thương Nhỉ

Vào năm 2012, những nhà nghiên cứu và phân tích AI từ bỏ Toronto đã cách tân và phát triển AlexNet, một mạng thần gớm tích chập chiếm phần ưu nuốm trong cuộc thi nhận hình dáng ảnh ImageNet nổi tiếng. Chiến thắng của AlexNet cho biết với sự tăng thêm sẵn tất cả của tài liệu và tài nguyên năng lượng điện toán, chắc rằng đã mang lại lúc phải trở lại với CNN. Sự khiếu nại này đã làm phục hồi sự suy nghĩ các CNN và tạo ra một cuộc biện pháp mạng trong Deep Learning, phân nhánh của Machine Learning liên quan đến việc sử dụng các mạng thần kinh nhân tạo nhiều lớp.

Nhờ những hiện đại trong mạng thần kinh tích chập cùng học sâu, trường đoản cú đó, nghành nghề thị giác laptop đã phát triển nhờ những bước nhảy vọt.

Ứng dụng của Thị giác thứ tính

Nhiều vận dụng bạn sử dụng hàng ngày sử dụng công nghệ thị giác vật dụng tính. Google sử dụng nó sẽ giúp bạn tìm kiếm các đối tượng người dùng và cảnh trang bị như là, “con chó” hoặc “hoàng hôn” trong một tủ sách hình hình ảnh của bạn. Những công ty khác áp dụng thị giác máy tính để giúp nâng cấp hình ảnh. Một lấy ví dụ như là Adobe Lightroom CC, áp dụng thuật toán Machine Learning để tăng tốc chi máu của hình hình ảnh được phóng to. Hiệ tượng phóng to (zoom in) truyền thống cuội nguồn sử dụng những kỹ thuật nội suy để tô màu sắc các khoanh vùng được phóng to, mà lại Lightroom sử dụng thị giác máy vi tính để phát hiện các đối tượng người dùng trong hình hình ảnh và làm cho sắc nét các đặc trưng của chúng sau khoản thời gian được phóng to.

Một nghành nghề đã đạt được tân tiến rõ rệt nhờ những tân tiến trong thị giác máy tính xách tay là dìm diện khuôn mặt. Apple sử dụng thuật toán dìm dạng khuôn mặt để unlock iPhone. Facebook sử dụng nhận dạng khuôn mặt để phát hiện người tiêu dùng trong ảnh bạn đăng lên mạng (mặc cho dù không phải ai cũng thích điều này). Tại Trung Quốc, nhiều nhà bán lẻ hiện cung cấp công nghệ thanh toán qua thừa nhận diện khuôn mặt, giúp người sử dụng không rất cần phải tiếp cận với ví tiền của họ.

Những tiến bộ trong nhấn dạng khuôn phương diện cũng khiến ra băn khoăn lo lắng cho những người dân ủng hộ quyền riêng tư, nhất là khi các cơ quan chính phủ nước nhà ở các đất nước khác nhau đang sử dụng nó để tính toán công dân của họ.

Chuyển quý phái các nghành chuyên biệt hơn, thị giác sản phẩm công nghệ tính nhanh chóng trở thành một công cụ luôn luôn phải có trong y học. Các thuật toán học sâu đang cho thấy độ chủ yếu xác tuyệt vời trong việc phân tích hình hình ảnh y tế. Các khám đa khoa và trường đại học đang áp dụng thị giác thứ tính để tham dự đoán các loại ung thư không giống nhau bằng phương pháp kiểm tra tia X cùng quét MRI.

Xe từ bỏ lái cũng phụ thuộc rất những vào thị giác máy vi tính để đọc được môi trường thiên nhiên xung quanh. Các thuật toán học sâu phân tích các nguồn cấp cho dữ liệu đoạn phim từ những camera được cài đặt lên xe cùng phát hiện tại người, xe pháo hơi, mặt đường và những vật thể khác để giúp chiếc xe dịch rời trong môi trường xung quanh của nó.

Những tinh giảm của Thị giác máy tính

Các hệ thống thị giác máy tính hiện trên thực hiện giỏi việc phân các loại hình hình ảnh và phiên bản địa hóa các đối tượng người sử dụng trong ảnh, khi bọn chúng được đào tạo tương đối đầy đủ với các ví dụ. Nhưng ở đoạn cốt lõi của chúng, các thuật toán học tập sâu cung ứng sức mạnh cho các ứng dụng thị giác đồ vật tính chính là việc đối chiếu những mẫu pixel. Chúng không hiểu những gì đang diễn ra trong các hình ảnh.

Việc hiểu mối quan hệ giữa bạn và đối tượng người sử dụng trong dữ liệu trực quan yên cầu phải có những cảm thừa nhận và các kiến ​​thức cơ bạn dạng chung. Đó là tại sao tại sao các thuật toán thị giác máy tính xách tay được áp dụng bởi những mạng xã hội hoàn toàn có thể phát hiện các nội dung khỏa thân, tuy vậy thường phải trở ngại để rành mạch sự khác biệt giữa hình ảnh khoả thân bình yên (ví dụ cho nhỏ bú hoặc nghệ thuật và thẩm mỹ Phục hưng) và văn bản bị cấm như câu chữ khiêu dâm. Tương tự như vậy, thật cực nhọc để các thuật toán này tạo nên sự khác biệt giữa tuyên truyền rất đoan cùng một phim tư liệu về các nhóm cực đoan!

Con người có thể khai thác kiến ​​thức to lớn về nạm giới của chính mình để che đầy đầy đủ lỗ hổng lúc họ đương đầu với một tình huống mà người ta chưa từng thấy trước đây. Không hệt như con người, những thuật toán thị giác máy tính cần yêu cầu được phía dẫn tinh vi về các loại đối tượng người sử dụng mà chúng cần phát hiện. Ngay khi môi trường thiên nhiên của bọn chúng chứa những thứ đi chệch khỏi những ví dụ đã làm được đào tạo, chúng bắt đầu hành hễ theo những phương pháp phi lý, chẳng hạn như không phát hiện tại ra những phương tiện nguy cấp dừng đỗ ở phần đông vị trí không giống thường.

Hiện tại, chiến thuật duy nhất để giải quyết và xử lý những vấn đề này là đào tạo các thuật toán AI trên với ngày dần nhiều những ví dụ, với hi vọng lượng dữ liệu bổ sung cập nhật sẽ tổng quan mọi trường hợp mà AI sẽ gặp mặt phải. Nhưng những kinh nghiệm tay nghề cho thấy, nếu không tồn tại sự nhấn thức theo tình huống, sẽ luôn luôn có phần đa góc khuất một trong những tình huống đơn lẻ làm náo loạn thuật toán AI.

Nhiều chuyên viên tin rằng họ sẽ chỉ đạt mức được thị giác laptop thực sự khi chúng ta tạo ra trí logic chung tự tạo (artificial general intelligence), AI rất có thể giải quyết các vấn đề theo cách tựa như như bé người. Như đơn vị khoa học laptop và nhà nghiên cứu và phân tích AI Melanie Mitchell đang nói vào cuốn sách Trí sáng dạ nhân tạo: lí giải về tư duy bé người: “Dường như trí tối ưu thị giác không dễ tách rời ngoài phần còn sót lại của trí thông minh, nhất là kiến ​​thức chung, sự trừu tượng và khả năng ngôn ngữ. Tiếp tế đó, rất có thể các con kiến ​​thức cần thiết cho trí tối ưu thị giác của con tín đồ không thể học được từ hàng triệu bức hình ảnh được mua xuống từ bỏ web, nhưng bắt buộc được yêu cầu theo một phương pháp nào đó trong quả đât thực”.