
Tóm tắt luận án Tiến sĩ Công nghệ thông tin: Nghiên cứu nhận dạng thực thể có tên và thực thể biểu hiện trong văn bản và ứng dụng
Số trang: 27
Loại file: docx
Dung lượng: 326.02 KB
Lượt xem: 24
Lượt tải: 0
Xem trước 3 trang đầu tiên của tài liệu này:
Thông tin tài liệu:
Luận án tập trung đề xuất một số giải pháp nhận dạng thực thể cho dữ liệu văn bản tiếng Việt và dữ liệu văn bản y sinh tiếng Anh. Các giải pháp tập trung vào vấn đề kết hợp các mô hình học máy cũng như các tri thức nguồn liên quan đến miền dữ liệu nhằm nâng cao hiệu quả đầu ra đối với các bài toán.
Nội dung trích xuất từ tài liệu:
Tóm tắt luận án Tiến sĩ Công nghệ thông tin: Nghiên cứu nhận dạng thực thể có tên và thực thể biểu hiện trong văn bản và ứng dụng ĐẠIHỌCQUỐCGIAHÀNỘI TRƯỜNGĐẠIHỌCCÔNGNGHỆ TRẦNMAIVŨNGHIÊNCỨUNHẬNDẠNGTHỰCTHỂCÓTÊNVÀ THỰCTHỂBIỂUHIỆNTRONGVĂNBẢNVÀỨNG DỤNG Chuyênngành:Hệthốngthôngtin Mãsố:62.48.05.01 TÓMTẮTLUẬNÁNTIẾNSĨCÔNGNGHỆ THÔNGTIN HàNội–2018 Côngtrìnhđượchoànthànhtại:TrươngĐaihocCông ̀ ̣ ̣ ̣ ̣ ̣ ̀ ̣nghê,ĐaihocQuôcgiaHaNôi ́ Người hướng dẫn khoa học: PGS.TS. Hà QuangThụy PGS.TS.NguyễnLêMinh Phảnbiện:PGS.TSLươngChiMai Phảnbiện:PGS.TS.LêThanhHương Phảnbiện:PGS.TSNguyễnĐìnhHóa Luậnánsẽ đượcbảovệ trướcHội đồngcấpĐại họcQuốcgiachấmluậnántiếnsĩhọptại vàohồi9giờngày07tháng02năm2018 Cóthểtìmhiểuluậnántại: ThưviệnQuốcgiaViệtNam TrungtâmThôngtinThưviện,ĐạihọcQuốcgiaHàNội a. DANHMỤCCÔNGTRÌNHCỦATÁCGIẢ CÓLIÊNQUANĐẾNLUẬNÁN1. [CTLA1]NigelCollier,FerdinandPaster,MaiVuTran (2014). The impact of near domain transfer on biomedical named entity recognitions LOUHI 2014, EACL2014,Sweden,2014.2. [CTLA2] Nigel Collier, MaiVu Tran, HoangQuynh Le,QuangThuyHa,AnikaOellrich,DietrichRebholz Schuhmann(2013).LearningtoRecognizePhenotype CandidatesintheAutoImmuneLiteratureUsingSVM ReRanking.PLoSONE8(10):e72965,October2013.3. [CTLA3]MaiVuTran,DucTrongLe(2013).vTools: Chunker and PartofSpeech tools, RIVFVLSP 2013 Workshop.4. [CTLA4] Nigel Collier, MaiVu Tran, HoangQuynh Le, Anika Oellrich, Ai Kawazoe, Martin HallMay, Dietrich RebholzSchuhmann (2012). A Hybrid ApproachtoFindingPhenotypeCandidatesinGenetic Texts,COLING2012:647662.5. [CTLA5]MaiVuTran,DucTrongLe,XuanTuTran andTienTungNguyen(2012).AModelofVietnamese Person Named Entity Question Answering System, PACLIC2012,Bali,Indonesia,October2012.6. [CTLA6] HoangQuynh Le, MaiVuTran, NhatNam Bui,NguyenCuongPhan,QuangThuyHa(2011).An IntegratedApproachUsingConditionalRandomFields for Named Entity Recognition and Person Property ExtractioninVietnameseText.IALP2011:115118.7. [CTLA7]HoangQuynhLe,MaiVuTran,ThanhHai Dang,NigelCollier(2015).TheUETCAMSystemin theBioCreAtIvEVCDRTask.InProceedingsofthe fifth BioCreative challenge evaluation workshop, Sevilla,Spain,2015. 34 MỞĐẦU b. Lýdochọnđềtài Nhậndạngthựcthểcótên(Namedentityrecognition: NER;cònđượcgọilà“nhậndạngthựcthể địnhdanh”)làmộtbàitoánchínhthuộclĩnhvựcxử lýngônngữ tự nhiên(NLP).Đâylàmộtbàitoántiềnđềchocáchệthốngvềhiểu ngônngữ haykhaiphávănbảnnhư tríchxuấtsự kiện,hỏi đáptựđộnghaytìmkiếmngữnghĩa.Chínhvìvậy,cùngvớisự pháttriểncủadữ liệuvănbảntrênInternet,bàitoánnày cũngnhậnđượcsựquantâmcủacộngđồngnghiêncứutrongkhoảng20nămtrởlạiđây. c. Mặcdùđãcókhánhiềucôngtrìnhnghiêncứu chomộtsốloạithựcthểthôngthườngtrongvăn bản tiếng Anh chuẩn tuy nhiên những nghiên cứuliênquanđếncácthựcthể trongngônngữ khácnhư tiếngViệthaycácmiềndữ liệuđặc biệtnhư miềndữliệuysinhvẫncònrấtnhiều hạn chế và thách thức. Có thể kể đến là sự khuyếtthiếucáctậpdữliệugánnhãnchuẩn,tài nguyênngônngữ về trithứcmiềnhaycácđịnh nghĩa hình thức về kiểu thực thể cần nhận dạng…Luậnánnàysẽ tiếpnốinhữngnghiên cứutrướcđónhằmgiảiquyếtmộtphầnnhững hạnchếđượcnêura ởtrên.Mụctiêucụthể và phạmvinghiêncứucủaluậnánsẽđượcmôtả kỹhơnởphầntiếptheo. d. Mụctiêucụ thể vàphạmvinghiêncứucủa luậnán Luậnánsẽtậptrungvàobàitoánnhậndạngthựcthểvớihailoạidữliệuthuộchaingônngữkhácnhaulàcácthựcthể thuộcdữ liệuvănbảntiếngViệtvàcácthựcthể thuộcdữliệuvănbảnysinhhọc. 5 Mụctiêucụ thểcủaluậnán ...
Nội dung trích xuất từ tài liệu:
Tóm tắt luận án Tiến sĩ Công nghệ thông tin: Nghiên cứu nhận dạng thực thể có tên và thực thể biểu hiện trong văn bản và ứng dụng ĐẠIHỌCQUỐCGIAHÀNỘI TRƯỜNGĐẠIHỌCCÔNGNGHỆ TRẦNMAIVŨNGHIÊNCỨUNHẬNDẠNGTHỰCTHỂCÓTÊNVÀ THỰCTHỂBIỂUHIỆNTRONGVĂNBẢNVÀỨNG DỤNG Chuyênngành:Hệthốngthôngtin Mãsố:62.48.05.01 TÓMTẮTLUẬNÁNTIẾNSĨCÔNGNGHỆ THÔNGTIN HàNội–2018 Côngtrìnhđượchoànthànhtại:TrươngĐaihocCông ̀ ̣ ̣ ̣ ̣ ̣ ̀ ̣nghê,ĐaihocQuôcgiaHaNôi ́ Người hướng dẫn khoa học: PGS.TS. Hà QuangThụy PGS.TS.NguyễnLêMinh Phảnbiện:PGS.TSLươngChiMai Phảnbiện:PGS.TS.LêThanhHương Phảnbiện:PGS.TSNguyễnĐìnhHóa Luậnánsẽ đượcbảovệ trướcHội đồngcấpĐại họcQuốcgiachấmluậnántiếnsĩhọptại vàohồi9giờngày07tháng02năm2018 Cóthểtìmhiểuluậnántại: ThưviệnQuốcgiaViệtNam TrungtâmThôngtinThưviện,ĐạihọcQuốcgiaHàNội a. DANHMỤCCÔNGTRÌNHCỦATÁCGIẢ CÓLIÊNQUANĐẾNLUẬNÁN1. [CTLA1]NigelCollier,FerdinandPaster,MaiVuTran (2014). The impact of near domain transfer on biomedical named entity recognitions LOUHI 2014, EACL2014,Sweden,2014.2. [CTLA2] Nigel Collier, MaiVu Tran, HoangQuynh Le,QuangThuyHa,AnikaOellrich,DietrichRebholz Schuhmann(2013).LearningtoRecognizePhenotype CandidatesintheAutoImmuneLiteratureUsingSVM ReRanking.PLoSONE8(10):e72965,October2013.3. [CTLA3]MaiVuTran,DucTrongLe(2013).vTools: Chunker and PartofSpeech tools, RIVFVLSP 2013 Workshop.4. [CTLA4] Nigel Collier, MaiVu Tran, HoangQuynh Le, Anika Oellrich, Ai Kawazoe, Martin HallMay, Dietrich RebholzSchuhmann (2012). A Hybrid ApproachtoFindingPhenotypeCandidatesinGenetic Texts,COLING2012:647662.5. [CTLA5]MaiVuTran,DucTrongLe,XuanTuTran andTienTungNguyen(2012).AModelofVietnamese Person Named Entity Question Answering System, PACLIC2012,Bali,Indonesia,October2012.6. [CTLA6] HoangQuynh Le, MaiVuTran, NhatNam Bui,NguyenCuongPhan,QuangThuyHa(2011).An IntegratedApproachUsingConditionalRandomFields for Named Entity Recognition and Person Property ExtractioninVietnameseText.IALP2011:115118.7. [CTLA7]HoangQuynhLe,MaiVuTran,ThanhHai Dang,NigelCollier(2015).TheUETCAMSystemin theBioCreAtIvEVCDRTask.InProceedingsofthe fifth BioCreative challenge evaluation workshop, Sevilla,Spain,2015. 34 MỞĐẦU b. Lýdochọnđềtài Nhậndạngthựcthểcótên(Namedentityrecognition: NER;cònđượcgọilà“nhậndạngthựcthể địnhdanh”)làmộtbàitoánchínhthuộclĩnhvựcxử lýngônngữ tự nhiên(NLP).Đâylàmộtbàitoántiềnđềchocáchệthốngvềhiểu ngônngữ haykhaiphávănbảnnhư tríchxuấtsự kiện,hỏi đáptựđộnghaytìmkiếmngữnghĩa.Chínhvìvậy,cùngvớisự pháttriểncủadữ liệuvănbảntrênInternet,bàitoánnày cũngnhậnđượcsựquantâmcủacộngđồngnghiêncứutrongkhoảng20nămtrởlạiđây. c. Mặcdùđãcókhánhiềucôngtrìnhnghiêncứu chomộtsốloạithựcthểthôngthườngtrongvăn bản tiếng Anh chuẩn tuy nhiên những nghiên cứuliênquanđếncácthựcthể trongngônngữ khácnhư tiếngViệthaycácmiềndữ liệuđặc biệtnhư miềndữliệuysinhvẫncònrấtnhiều hạn chế và thách thức. Có thể kể đến là sự khuyếtthiếucáctậpdữliệugánnhãnchuẩn,tài nguyênngônngữ về trithứcmiềnhaycácđịnh nghĩa hình thức về kiểu thực thể cần nhận dạng…Luậnánnàysẽ tiếpnốinhữngnghiên cứutrướcđónhằmgiảiquyếtmộtphầnnhững hạnchếđượcnêura ởtrên.Mụctiêucụthể và phạmvinghiêncứucủaluậnánsẽđượcmôtả kỹhơnởphầntiếptheo. d. Mụctiêucụ thể vàphạmvinghiêncứucủa luậnán Luậnánsẽtậptrungvàobàitoánnhậndạngthựcthểvớihailoạidữliệuthuộchaingônngữkhácnhaulàcácthựcthể thuộcdữ liệuvănbảntiếngViệtvàcácthựcthể thuộcdữliệuvănbảnysinhhọc. 5 Mụctiêucụ thểcủaluậnán ...
Tìm kiếm theo từ khóa liên quan:
Tóm tắt luận án Tiến sĩ Công nghệ thông tin Dữ liệu văn bản y sinh Dữ liệu văn bản tiếng Việt Miền dữ liệuTài liệu có liên quan:
-
52 trang 464 1 0
-
Top 10 mẹo 'đơn giản nhưng hữu ích' trong nhiếp ảnh
11 trang 366 0 0 -
96 trang 333 0 0
-
74 trang 329 0 0
-
Đồ án tốt nghiệp: Xây dựng ứng dụng di động android quản lý khách hàng cắt tóc
81 trang 318 0 0 -
Tài liệu dạy học môn Tin học trong chương trình đào tạo trình độ cao đẳng
348 trang 317 1 0 -
Báo cáo thực tập thực tế: Nghiên cứu và xây dựng website bằng Wordpress
24 trang 303 0 0 -
Tài liệu hướng dẫn sử dụng thư điện tử tài nguyên và môi trường
72 trang 299 0 0 -
EBay - Internet và câu chuyện thần kỳ: Phần 1
143 trang 292 0 0 -
64 trang 290 0 0
-
Tóm tắt Luận án Tiến sĩ Quản lý công: Quản lý nhà nước về thú y trên địa bàn thành phố Hà Nội
25 trang 284 0 0 -
Bài giảng An toàn và bảo mật thông tin - Trường đại học Thương Mại
31 trang 271 0 0 -
47 trang 261 0 0
-
LUẬN VĂN: TÌM HIỂU PHƯƠNG PHÁP HỌC TÍCH CỰC VÀ ỨNG DỤNG CHO BÀI TOÁN LỌC THƯ RÁC
65 trang 260 0 0 -
Giáo trình Hệ điều hành: Phần 2
53 trang 254 0 0 -
63 trang 230 0 0
-
70 trang 229 0 0
-
Giáo trình Autocad - Nghề: Quản trị mạng máy tính - Trình độ: Cao đẳng nghề (Phần 2)
52 trang 229 0 0 -
83 trang 227 0 0
-
69 trang 225 0 0