You are here
Name
- Name
- khoahoc nlp
Personal details
- Web
- https://www.mindalife.vn/
- Short Bio
Giới thiệu trước hết về xử lý NLP
Khóa học mới nhất của chúng tôi là phần giới thiệu trước nhất về NLP, tuân theo triết lý giảng dạy fast.ai về chia sẻ khai triển mã thực tiễn và cho sinh viên cảm nhận về đông đảo trò chơi, trước khi đi sâu vào chi tiết cấp tốt hơn. Các vận dụng được đề cập bao gồm mô hình hóa chủ đề, phân dòng (xác định liệu tình cảm của Đánh giá là theo định hướng hay tiêu cực), mô hình tiếng nói và dịch thuật. Khóa học dạy một sự pha trộn của những chủ đề NLP truyền thống (bao gồm regex, SVD, vịnh ngây thơ, mã thông báo) và những cách mạng tâm thần vừa mới đây (bao gồm RNNs, seq2seq, sự chú ý và kiến trúc máy biến áp), cũng như giải quyết các vấn đề đạo đức khẩn cấp, như bẩm tính và thông báo lệch lạc. Các chủ đề với thể được xem theo thứ tự bất kỳ.
Xem thêm: Khóa Học NLP Tại MindaLife: Khóa Học NLP Tại Hà Nội Uy Tín Nhất
phần lớn các mã đều bằng Python trong Jupyter Notebooks, tiêu dùng PyTorch và thư viện fastai . Bạn có thể tìm thấy phần đông mã cho những sổ biên chép có sẵn trên GitHub và rất nhiều các video của các bài giảng đều mang trong danh sách phát này .
Khóa học này ban đầu được giảng dạy trong chương trình công nghệ dữ liệu của Đại học San Francisco vào tháng 5 tháng 6 năm 2019. USF MSDS đã tồn tại được 7 năm (hơn 330 sinh viên đã tốt nghiệp và đi khiến nhà kỹ thuật dữ liệu trong thời gian này!) và hiện được lưu trữ tại Viện dữ liệu ở trung thành tâm phố SF. Trong các năm trước, Jeremy đã dạy khóa học máy và tôi đã dạy 1 môn đại số tuyến tính tính tự chọn như 1 phần của chương trình.
điểm nhấn NLP
một số điểm đặc sắc của khóa học mà tôi đặc trưng hào hứng:
- Chuyển giao việc học cho NLP
- Mẹo khiến cho việc sở hữu các tiếng nói khác ngoài tiếng Anh
- Chú ý và máy biến áp
- các thuật toán tạo văn bản (bao gồm cả việc thực hành 1 bài báo mới từ Viện Allen)
- những vấn đề lệch lạc và 1 số bước để khắc phục chúng
- 1 bài giảng đặc thù của Nikhil Garg về bí quyết nhúng trong khoảng mã hóa các bản dòng (và bí quyết này đã thay đổi trong 100 năm qua)
- khiến thế nào tiến bộ NLP đang tăng nguy cơ mất thông tin
- Rủi ro tăng lên từ các mô phỏng ngôn ngữ mới như GPT-2
đa số những chủ đề có thể độc lập, do vậy ko cần phải trải qua khóa học ví như bạn chỉ quan tâm đến những chủ đề cụ thể (mặc dù tôi hy vọng mọi người sẽ xem các video về thiên tính và thông tin lệch lạc , vì đây là các chủ đề quan trọng cho mọi người quan tâm đến máy học tập). Lưu ý rằng video với độ dài khác nhau trong khoảng trong khoảng 20-90 phút.
Đã với phổ biến tiến bộ lớn trong NLP trong năm ngoái, và kết quả đương đại mới đang đạt được mỗi tháng. NLP vẫn còn rất nhiều ngành, mang những thực tiễn rẻ nhất thay đổi và những tiêu chuẩn mới chưa được giải quyết. Điều này khiến một thời gian thú vị để Phân tích NLP. Khóa học này bao gồm một sự pha trộn của những khoa học truyền thống hơn, các cách thức tiếp cận mạng tâm thần mới hơn và những vấn đề cấp bách về lệch lạc và lập lờ.
Xem thêm: Mindalife
NLP là gì?
cách NLP truyền thống
Trong phần ba đầu tiên của khóa học, chúng tôi bao gồm mô hình hóa chủ đề sở hữu SVD, phân loại tình cảm phê chuẩn các vịnh ngây thơ và hồi quy logisitic và regex. Trên phố đi, chúng tôi Phân tích các công nghệ xử lý quan yếu như mã thông tin và số hóa.

Jeremy chia sẻ máy tính xách tay jupyter bước qua ULMFit , Công trình đột phá của anh có Sebastian Ruder năm ngoái để ứng dụng thành công tác học chuyển sang NLP. Công nghệ này bao gồm tập huấn 1 mô hình ngôn ngữ trên 1 kho văn bản lớn, tinh chỉnh nó cho một kho văn bản khác và nhỏ hơn, sau đó thêm 1 bộ phân dòng vào cuối. Công việc này đã được xây dựng dựa trên những bài báo vừa qua hơn như BERT, GPT-2 và XLNet. Trong tài liệu mới (kèm theo các bản cập nhật cho thư viện fastai), Jeremy san sẻ các mẹo và thủ thuật để làm việc có các tiếng nói khác ngoài tiếng Anh và xem qua các ví dụ triển khai ULMFit cho tiếng Việt và tiếng Thổ Nhĩ Kỳ.
Giới thiệu về mô phỏng hóa ngôn ngữ
Chúng tôi sẽ đi sâu vào một số chi tiết cơ bản về bí quyết hoạt động của những RNN đơn giản và sau đó xem xét mô phỏng seq2seq để dịch. Chúng tôi xây dựng mô hình dịch thuật của mình, thêm những cách như buộc thầy giáo, chú ý và GRU để cải thiện hiệu suất. Sau đấy chúng tôi đã sẵn sàng để chuyển sang Transformer, khám phá 1 triển khai.
Hiểu RNN
-
Dịch với Seq2Seq
-
Thuật toán tạo văn bản (Jeremy Howard)
-
thực hiện GRU
-
Giới thiệu về máy biến áp
-
Máy biến áp cho dịch ngôn ngữ
-
The Transformer for dịch ngôn ngữ
-
The Transformer for dịch tiếng nói
các vấn đề đạo đức trong NLP
NLP đặt ra các vấn đề đạo đức quan trọng, chả hạn như phương pháp các bản dòng mang thể được mã hóa trong các từ nhúng và phương pháp những từ của những đội ngũ bên lề thường mang khả năng được phân cái là độc hại. Đó là một điều trị đặc biệt để sinh viên tiến sĩ Stanford Nikhil Garg chia sẻ công việc của mình đã được xuất bản trên PNAS về chủ đề này. Chúng tôi cũng Phân tích về một phạm vi để hiểu rõ hơn về nguyên do của các loại sai lệch khác nhau, tầm quan yếu của việc đặt thắc mắc về công việc nào chúng ta nên hạn chế hoàn toàn và những bước để khắc phục sự thiên tính, chẳng hạn như Báo cáo dữ liệu cho NLP .
Nikhil Garg đã thuyết trình cho khách mời về công tác của mình cho thấy phương pháp những từ nhúng định lượng định kiến trong 100 năm qua
Nikhil Garg đã thuyết trình cho khách mời về công tác của mình cho thấy cách những trong khoảng nhúng định lượng thành kiến trong 100 năm qua
thiên hướng chẳng phải là vấn đề đạo đức độc nhất trong NLP. Những mô phỏng ngôn ngữ phức tạp hơn mang thể tạo ra văn xuôi nhái hấp dẫn có thể nhấn chìm con người thật hoặc thao túng dư luận. Chúng tôi nhắc đến tính năng động của thông tin lệch lạc, rủi ro của văn bản tạo ra máy tính hấp dẫn, quyết định phát hành gây tranh luận của OpenAI cho GPT-2 và một số bước được bắt buộc đối sở hữu các giải pháp, như hệ thống để xác minh hoặc chữ ký số.
những từ nhúng định lượng 100 năm định kiến về giới và dân tộc (Nikhil Garg)
-
xu hướng thuật toán
-
những gì bạn cần biết về thông báo lệch lạc
-
Về lý do vì sao sự bẩm tính thuật toán lại quan yếu, những dòng khác nhau và những bước để giải quyết nó
-
Về lý do vì sao sự thiên vị thuật toán lại quan trọng, các chiếc khác nhau và những bước để khắc phục nó
-
Chúng tôi kỳ vọng bạn sẽ rà soát khóa học! Tất cả mã cho sổ biên chép jupyter được tiêu dùng trong lớp sở hữu thể được mua thấy trên GitHub và danh sách phát của phần nhiều các video với sẵn trên YouTube .
(Cập nhật để thêm) khiến cho quen có việc khiến việc có dữ liệu trong Python, cũng như có các khái niệm học máy (như tập huấn luyện và kiểm tra) là điều kiện tiên quyết nhu yếu. 1 Số kinh nghiệm mang PyTorch và màng lưới tâm thần là có ích.
Xem thêm: https://www.vingle.net/posts/2854189
Như mọi khi, tại fast.ai, chúng tôi khuyên bạn nên học trên hạ tầng khi cần phải có (quá đa dạng sinh viên cảm thấy cần phải dành hàng tháng hoặc thậm chí đa dạng năm cho tài liệu nền trước lúc họ với thể với được các gì thực thụ quan tâm tới họ, và quá thường xuyên, đó là vật liệu nền chấm dứt thậm chí ko cần thiết). Giả dụ bạn quan tâm đến khóa học này, nhưng không kiên cố liệu bạn có nền tảng thích hợp hay không, hãy tiếp diễn và thử khóa học! Giả dụ bạn sắm thấy các khái niệm thiết yếu mà bạn ko thân thuộc, bạn luôn sở hữu thể nhất thời giới hạn và nghiên cứu về chúng. Tuy nhiên, hãy kiên cố kiểm tra các diễn đàn fast.ai như 1 nơi để đặt thắc mắc và san sớt tài nguyên.
History
- Member for
- 5 years 10 months